LMSYS开源MOSS-TTS-Local-v1.5：基于Qwen3-4B骨干，支持原生流式48kHz语音合成

OmniTools 6月18日消息，LMSYS官方博客近日发布开源文本转语音模型 MOSS-TTS-Local-Transformer-v1.5，该模型已在 SGLang-Omni 平台完成部署，支持原生流式 48 kHz 立体声语音输出。

该模型具备零样本声音克隆、最长10分钟长文本合成、时长可控及31种语言支持能力。技术架构基于 Qwen3-4B 语言骨干与约20亿参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，采用12个RVQ码本实现高效音频表征。

基准测试显示，该模型在多项指标上表现优异：Seed-TTS-Eval 词错误率（WER）为5.10%、语音相似度（SIM）69.23%；CV3-Eval WER 7.48%、SIM 61.59%；MiniMax Multilingual WER 6.37%、SIM 75.31%；X Voice WER 20.48%、SIM 63.00%。