返回行业动态

Miso One 开源语音合成模型发布:8B 参数、110ms 延迟、支持单样本克隆

2026/06/03 17:09
查看原文

OmniTools 6月4日消息,Miso One 开源语音合成(TTS)模型正式发布。该模型参数量为 8B,旨在模拟真实人类朗读的温暖与节奏。模型支持单次语音克隆,仅需短音频样本即可完成声音复刻,端到端推理延迟低至 110ms。全部权重已开源至 GitHub,支持本地自托管,确保音频数据不出本地环境。官方已上线在线演示,用户可先试听效果,再下载代码与权重。配套 API 访问功能计划后续推出。