返回行业动态

Mistral AI 发布首款多语言 TTS 模型 Voxtral TTS

2026/04/15 10:48
查看原文

Mistral AI 发布其首款文本转语音模型 Voxtral TTS。该模型参数量为 4B,基于 Ministral 3B 构建,采用 Transformer 架构和自回归流匹配技术,支持英语、法语、德语等 9 种语言及多种方言的真实、富有情感的语音生成。

Voxtral TTS 具备极低延迟,模型延迟仅为 70ms。该模型支持仅需 3 秒参考音频的零样本声音适配,甚至能实现零样本跨语言声音克隆(如用法语提示音生成带法语口音的英语)。人类评估显示,其自然度优于 ElevenLabs Flash v2.5,且质量与 ElevenLabs v3 持平。

目前,Voxtral TTS 已通过 API 开放使用,定价为每 1k 字符 0.016 美元,用户也可在 Mistral Studio 和 Le Chat 中进行测试。此外,包含多个参考声音的模型权重已在 Hugging Face 上以 CC BY NC 4.0 许可证开源。