网易有道开源Confucius4-TTS语音模型：支持14语种跨语种无口音合成与零样本克隆

OmniTools 6月23日消息，网易有道近日正式开源TTS引擎Confucius4-TTS（“子曰4.0”），宣称是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

该模型仅需3秒参考音频即可实现零样本音色克隆，官方数据显示克隆音色与原声相似度超85%，任务准确度达97%。除支持中、英等14种语言外，该模型首次引入音频Prompt情感克隆迁移能力。

技术架构方面，Confucius4-TTS底层采用GPT式语义大模型、SSL预训练特征、ECAPA-TDNN说话人编码器及Flow Matching框架。目前模型已按Apache 2.0协议全量开源，并提供约54GB资源包支持本地部署。