NVIDIA发布开源多模态模型Nemotron 3 Nano Omni，AI智能体效率提升9倍

4月28日，NVIDIA正式发布开源多模态推理模型Nemotron 3 Nano Omni。该模型将视觉、音频和语言能力整合至单一系统，有效解决了传统AI智能体在多模型间切换导致的数据延迟与上下文丢失问题。

Nemotron 3 Nano Omni采用30B-A3B混合专家（MoE）架构，支持256K上下文窗口，可处理文本、图像、音频、视频及图形界面等复杂输入。在同等交互性下，其吞吐量较其他开源全模态模型提升9倍，并在复杂文档智能与音视频理解等六项基准测试中位列榜首，显著降低了部署成本并提升了扩展性。

该模型主要面向构建智能体系统的企业与开发者，适用于计算机操作、文档智能解析及音视频推理等场景。目前，Aible、Foxconn、Palantir等企业已率先接入。模型现已通过Hugging Face、OpenRouter及build.nvidia.com等平台开放权重与部署工具。