NVIDIA开源Nemotron 3.5 ASR语音模型，支持40种语言实时流式转录与微调

OmniTools 6月4日消息，NVIDIA 近日在 Hugging Face 平台开源 Nemotron 3.5 ASR 语音识别模型。该模型为 6 亿参数架构，单检查点支持 40 种语言及方言的实时流式语音转文字，内置标点与大小写生成能力，端到端延迟可低至 80 毫秒。

模型采用 Cache-Aware FastConformer-RNNT 架构，通过缓存编码器内部状态避免重复计算，兼顾低延迟与高准确率。开发者可通过 att_context_size 参数在推理时动态调节延迟与精度的权衡，无需重新训练。

官方同步发布详细微调指南，涵盖数据准备、训练、评估与部署全流程。以希腊语和保加利亚语为例，微调后词错误率（WER）分别下降 32% 和 31%。模型权重已开源至 Hugging Face，支持本地部署与私有化微调。