返回行业动态

网易有道开源Confucius4-TTS语音模型:支持14语种跨语种无口音合成与零样本克隆

2026/06/23 11:28
查看原文

OmniTools 6月23日消息,网易有道近日正式开源TTS引擎Confucius4-TTS(“子曰4.0”),宣称是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

该模型仅需3秒参考音频即可实现零样本音色克隆,官方数据显示克隆音色与原声相似度超85%,任务准确度达97%。除支持中、英等14种语言外,该模型首次引入音频Prompt情感克隆迁移能力。

技术架构方面,Confucius4-TTS底层采用GPT式语义大模型、SSL预训练特征、ECAPA-TDNN说话人编码器及Flow Matching框架。目前模型已按Apache 2.0协议全量开源,并提供约54GB资源包支持本地部署。