返回行业动态

Mistral AI发布Voxtral TTS:4B参数多语言语音生成模型

2026/04/15 12:20
查看原文

Mistral AI正式发布其首款文本转语音模型Voxtral TTS。该模型参数量为4B,基于Ministral 3B构建,采用基于Transformer的自回归流匹配架构。Voxtral TTS支持9种主流语言(包括英、法、德、西、荷、葡、意、印地语和阿拉伯语)及多种方言,能够生成逼真且富有情感的语音,并具备极低的延迟(10秒/500字符输入的模型延迟为70ms)。

在功能方面,Voxtral TTS仅需3秒的参考音频即可实现声音适配,能够捕捉口音、语调甚至自然停顿等细微特征。此外,该模型还具备零样本跨语言声音适配能力,例如可使用法语语音提示生成带有法语口音的英语语音。人工评估显示,Voxtral TTS的自然度优于ElevenLabs Flash v2.5,且质量与ElevenLabs v3相当。

目前,Voxtral TTS已通过API提供服务,定价为每1000个字符0.016美元,用户也可在Mistral Studio和Le Chat中进行体验。同时,包含多个参考声音的模型权重已在Hugging Face上以CC BY NC 4.0协议开源。