返回行业动态

Boson AI 与 LMSYS 联合发布 Higgs Audio v3 TTS 端到端服务

2026/06/04 17:10
查看原文

OmniTools 6月5日消息,LMSYS 官方博客 6月4日消息,Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 文本转语音(TTS)端到端服务。该模型参数量约 40 亿,以 Qwen3-4B 为骨干架构,官方支持 100 种语言,内部评测覆盖 111 种。

Higgs Audio v3 在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 等零样本语音克隆任务中实现单字级 WER/CER。开发者可通过文本内嵌控制标签,实时调节情感(20+类)、风格、韵律(语速/音高/停顿)及音效。

模型支持流式语音合成,可在输入文本未完成时即启动生成,并保持语音一致性。底层 SGLang-Omni 框架专为多阶段生成模型设计,统一调度自回归解码与轻量计算,有效优化推理延迟。