OmniTools 6月4日消息,NVIDIA 近日在 Hugging Face 平台开源 Nemotron 3.5 ASR 语音识别模型。该模型为 6 亿参数架构,单检查点支持 40 种语言及方言的实时流式语音转文字,内置标点与大小写生成能力,端到端延迟可低至 80 毫秒。
模型采用 Cache-Aware FastConformer-RNNT 架构,通过缓存编码器内部状态避免重复计算,兼顾低延迟与高准确率。开发者可通过 att_context_size 参数在推理时动态调节延迟与精度的权衡,无需重新训练。
官方同步发布详细微调指南,涵盖数据准备、训练、评估与部署全流程。以希腊语和保加利亚语为例,微调后词错误率(WER)分别下降 32% 和 31%。模型权重已开源至 Hugging Face,支持本地部署与私有化微调。