Boson AI 与 LMSYS 联合发布 Higgs Audio v3 TTS 端到端服务

OmniTools 6月5日消息，LMSYS 官方博客 6月4日消息，Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 文本转语音（TTS）端到端服务。该模型参数量约 40 亿，以 Qwen3-4B 为骨干架构，官方支持 100 种语言，内部评测覆盖 111 种。

Higgs Audio v3 在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 等零样本语音克隆任务中实现单字级 WER/CER。开发者可通过文本内嵌控制标签，实时调节情感（20+类）、风格、韵律（语速/音高/停顿）及音效。

模型支持流式语音合成，可在输入文本未完成时即启动生成，并保持语音一致性。底层 SGLang-Omni 框架专为多阶段生成模型设计，统一调度自回归解码与轻量计算，有效优化推理延迟。