Mistral AI发布Voxtral TTS：4B参数多语言语音生成模型

Mistral AI正式发布其首款文本转语音模型Voxtral TTS。该模型参数量为4B，基于Ministral 3B构建，采用基于Transformer的自回归流匹配架构。Voxtral TTS支持9种主流语言（包括英、法、德、西、荷、葡、意、印地语和阿拉伯语）及多种方言，能够生成逼真且富有情感的语音，并具备极低的延迟（10秒/500字符输入的模型延迟为70ms）。

在功能方面，Voxtral TTS仅需3秒的参考音频即可实现声音适配，能够捕捉口音、语调甚至自然停顿等细微特征。此外，该模型还具备零样本跨语言声音适配能力，例如可使用法语语音提示生成带有法语口音的英语语音。人工评估显示，Voxtral TTS的自然度优于ElevenLabs Flash v2.5，且质量与ElevenLabs v3相当。

目前，Voxtral TTS已通过API提供服务，定价为每1000个字符0.016美元，用户也可在Mistral Studio和Le Chat中进行体验。同时，包含多个参考声音的模型权重已在Hugging Face上以CC BY NC 4.0协议开源。