Mistral AI 发布了其首款文本转语音模型 Voxtral TTS。该模型参数量为 4B,基于 Ministral 3B 构建,支持英语、法语、德语等 9 种语言及多种方言,具备低延迟和情感表达能力。据官方介绍,Voxtral TTS 的模型延迟约为 70 毫秒,实时因子(RTF)约为 9.7 倍。
Voxtral TTS 支持仅需 3 秒的参考音频即可进行语音适配,能够捕捉口音、语调及自然停顿等细微特征,并具备零样本跨语言语音适配能力。人工评估显示,其自然度优于 ElevenLabs Flash v2.5,且质量与 ElevenLabs v3 相当。
目前,Voxtral TTS 已通过 API 提供,定价为每 1000 字符 0.016 美元,用户可在 Mistral Studio 和 Le Chat 中进行测试。此外,包含多个参考语音的模型权重已在 Hugging Face 上以 CC BY NC 4.0 许可证开源。