返回行业动态

美团LongCat开源LongCat-Video-Avatar-1.5:音频驱动数字人视频生成框架

2026/05/21 16:12
查看原文

OmniTools 5月22日消息,美团LongCat团队正式开源LongCat-Video-Avatar-1.5,这是一个专注于音频驱动数字人视频生成的开源框架。新版本核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度,实现了高精度唇形同步、全身动作时序稳定性及长视频中的身份一致性。

该模型支持泛化至动漫角色、动物形象及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型推理步数被压缩至8步,大幅提升生成效率。团队还构建了覆盖多场景、多语言的人工评估基准,结合大规模主观评分与专家分析,验证了其在多项关键性能维度上的优异表现。