返回行业动态

LMSYS开源MOSS-TTS-Local-v1.5:基于Qwen3-4B骨干,支持原生流式48kHz语音合成

2026/06/18 06:11
查看原文

OmniTools 6月18日消息,LMSYS官方博客近日发布开源文本转语音模型 MOSS-TTS-Local-Transformer-v1.5,该模型已在 SGLang-Omni 平台完成部署,支持原生流式 48 kHz 立体声语音输出。

该模型具备零样本声音克隆、最长10分钟长文本合成、时长可控及31种语言支持能力。技术架构基于 Qwen3-4B 语言骨干与约20亿参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,采用12个RVQ码本实现高效音频表征。

基准测试显示,该模型在多项指标上表现优异:Seed-TTS-Eval 词错误率(WER)为5.10%、语音相似度(SIM)69.23%;CV3-Eval WER 7.48%、SIM 61.59%;MiniMax Multilingual WER 6.37%、SIM 75.31%;X Voice WER 20.48%、SIM 63.00%。