小米开源可控视频音效生成模型 ControlFoley

OmniTools 5月29日消息，小米大模型应用团队正式开源可控视频音效生成模型 ControlFoley，旨在解决视频音效创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音以及参考音频控制视频配音三类任务。在 VGGSound-Test 等多个公开基准测试中，ControlFoley 均取得当前开源模型最优（SOTA）表现。目前，项目代码、模型权重及在线 Demo 均已向公众开放。