Mistral AI发布Voxtral TTS：4B参数，支持9种语言及情感表达

Mistral AI正式发布其首款文本转语音模型Voxtral TTS。该模型拥有40亿（4B）参数，基于Ministral 3B构建，采用基于Transformer的自回归流匹配架构。Voxtral TTS专为多语言语音生成设计，支持英语、法语、德语、西班牙语等9种主流语言及多种方言，能够生成逼真且具有情感表现力（如中性、开心、讽刺等）的语音。

该模型具备极低延迟，在典型输入下模型延迟仅为70毫秒。据人工评估显示，Voxtral TTS在保持与ElevenLabs Flash v2.5相似的首字音频时间（TTFA）的同时，实现了更优的自然度，且质量与ElevenLabs v3持平。此外，Voxtral TTS支持仅需3秒参考音频的语音适配，并具备零样本跨语言语音适配能力，例如可使用法语语音提示生成带有法语口音的英语语音。

目前，Voxtral TTS已通过API提供服务，定价为每1000字符0.016美元，用户也可在Mistral Studio和Le Chat中进行体验。包含多个参考语音的模型权重已在Hugging Face上以CC BY NC 4.0协议开源。