Mistral AI正式发布其首款文本转语音模型Voxtral TTS。该模型拥有40亿(4B)参数,基于Ministral 3B构建,采用基于Transformer的自回归流匹配架构。Voxtral TTS专为多语言语音生成设计,支持英语、法语、德语、西班牙语等9种主流语言及多种方言,能够生成逼真且具有情感表现力(如中性、开心、讽刺等)的语音。
该模型具备极低延迟,在典型输入下模型延迟仅为70毫秒。据人工评估显示,Voxtral TTS在保持与ElevenLabs Flash v2.5相似的首字音频时间(TTFA)的同时,实现了更优的自然度,且质量与ElevenLabs v3持平。此外,Voxtral TTS支持仅需3秒参考音频的语音适配,并具备零样本跨语言语音适配能力,例如可使用法语语音提示生成带有法语口音的英语语音。
目前,Voxtral TTS已通过API提供服务,定价为每1000字符0.016美元,用户也可在Mistral Studio和Le Chat中进行体验。包含多个参考语音的模型权重已在Hugging Face上以CC BY NC 4.0协议开源。