美团LongCat开源LongCat-Video-Avatar-1.5：音频驱动数字人视频生成框架

OmniTools 5月22日消息，美团LongCat团队正式开源LongCat-Video-Avatar-1.5，这是一个专注于音频驱动数字人视频生成的开源框架。新版本核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度，实现了高精度唇形同步、全身动作时序稳定性及长视频中的身份一致性。

该模型支持泛化至动漫角色、动物形象及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型推理步数被压缩至8步，大幅提升生成效率。团队还构建了覆盖多场景、多语言的人工评估基准，结合大规模主观评分与专家分析，验证了其在多项关键性能维度上的优异表现。