Miso One 开源语音合成模型发布：8B 参数、110ms 延迟、支持单样本克隆

OmniTools 6月4日消息，Miso One 开源语音合成（TTS）模型正式发布。该模型参数量为 8B，旨在模拟真实人类朗读的温暖与节奏。模型支持单次语音克隆，仅需短音频样本即可完成声音复刻，端到端推理延迟低至 110ms。全部权重已开源至 GitHub，支持本地自托管，确保音频数据不出本地环境。官方已上线在线演示，用户可先试听效果，再下载代码与权重。配套 API 访问功能计划后续推出。