返回行业动态

小米开源可控视频音效生成模型 ControlFoley

2026/05/29 09:38
查看原文

OmniTools 5月29日消息,小米大模型应用团队正式开源可控视频音效生成模型 ControlFoley,旨在解决视频音效创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音以及参考音频控制视频配音三类任务。在 VGGSound-Test 等多个公开基准测试中,ControlFoley 均取得当前开源模型最优(SOTA)表现。目前,项目代码、模型权重及在线 Demo 均已向公众开放。