CMU团队提出新路径：提升视觉-语言模型“电影语言”表达能力

OmniTools 5月14日消息，卡内基梅隆大学（CMU）研究团队联合百余位专业影视创作者，历时一年构建了一套视频描述生成流程。该流程核心在于扩展精细化的人类-AI协同监督机制，而非单纯依赖扩大模型参数规模。

研究指出，当前主流视频生成模型在理解与生成具备电影感的专业运镜（如希区柯克式滑动变焦、精确焦点转移、荷兰角镜头等）时存在明显局限，常输出通用化或焦点错误的画面。

该成果已入选CVPR 2026亮点论文，为提升模型对专业影像语义的理解与表达能力提供了以监督质量为核心的新路径。