返回行业动态

Mistral AI 发布首款 TTS 模型 Voxtral TTS,支持9种语言及情感控制

2026/04/15 15:22
查看原文

Mistral AI 正式发布其首款文本转语音(TTS)模型 Voxtral TTS。该模型参数量为 4B,基于 Ministral 3B 构建,采用基于 Transformer 的自回归流匹配架构。Voxtral TTS 支持 9 种主流语言(英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语)及多种方言,具备低延迟特性,模型延迟约为 70ms。

该模型主打逼真且富有情感的语音生成,支持情绪控制(如中性、开心、讽刺等)。Voxtral TTS 支持少至 3 秒的参考音频进行声音适配,能够捕捉说话人的个性、节奏和语调,甚至具备零样本跨语言声音适配能力。人工评估显示,其自然度优于 ElevenLabs Flash v2.5,质量与 ElevenLabs v3 相当。

目前,Voxtral TTS 已通过 API 开放使用,定价为每 1000 字符 0.016 美元,用户也可在 Mistral Studio 和 Le Chat 中体验。此外,包含多个参考声音的模型权重已在 Hugging Face 上以 CC BY NC 4.0 许可证开源。