Mistral AI 发布首款 TTS 模型 Voxtral TTS，支持9种语言及情感控制

Mistral AI 正式发布其首款文本转语音（TTS）模型 Voxtral TTS。该模型参数量为 4B，基于 Ministral 3B 构建，采用基于 Transformer 的自回归流匹配架构。Voxtral TTS 支持 9 种主流语言（英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语）及多种方言，具备低延迟特性，模型延迟约为 70ms。

该模型主打逼真且富有情感的语音生成，支持情绪控制（如中性、开心、讽刺等）。Voxtral TTS 支持少至 3 秒的参考音频进行声音适配，能够捕捉说话人的个性、节奏和语调，甚至具备零样本跨语言声音适配能力。人工评估显示，其自然度优于 ElevenLabs Flash v2.5，质量与 ElevenLabs v3 相当。

目前，Voxtral TTS 已通过 API 开放使用，定价为每 1000 字符 0.016 美元，用户也可在 Mistral Studio 和 Le Chat 中体验。此外，包含多个参考声音的模型权重已在 Hugging Face 上以 CC BY NC 4.0 许可证开源。