返回行业动态

Mistral AI 发布首款文本转语音模型 Voxtral TTS

2026/04/15 14:21
查看原文

Mistral AI 正式发布其首款文本转语音模型 Voxtral TTS。该模型参数量为 40 亿(4B),基于 Ministral 3B 构建,支持英语、法语、德语等 9 种语言及多种方言,具备低延迟和情感表达能力。

Voxtral TTS 支持仅需 3 秒参考音频的语音适配,并具备零样本跨语言语音适配能力。在性能方面,人工评估显示其自然度优于 ElevenLabs Flash v2.5,且与 ElevenLabs v3 质量相当。模型延迟低至 70 毫秒,原生支持生成长达两分钟的音频。

目前,Voxtral TTS 已通过 API 开放使用,定价为每 1000 字符 0.016 美元。用户可在 Mistral Studio 和 Le Chat 中进行体验。此外,包含多个参考语音的模型权重已在 Hugging Face 上以 CC BY NC 4.0 许可证开源。