4月28日,NVIDIA正式发布开源多模态推理模型Nemotron 3 Nano Omni。该模型将视觉、音频和语言能力整合至单一系统,有效解决了传统AI智能体在多模型间切换导致的数据延迟与上下文丢失问题。
Nemotron 3 Nano Omni采用30B-A3B混合专家(MoE)架构,支持256K上下文窗口,可处理文本、图像、音频、视频及图形界面等复杂输入。在同等交互性下,其吞吐量较其他开源全模态模型提升9倍,并在复杂文档智能与音视频理解等六项基准测试中位列榜首,显著降低了部署成本并提升了扩展性。
该模型主要面向构建智能体系统的企业与开发者,适用于计算机操作、文档智能解析及音视频推理等场景。目前,Aible、Foxconn、Palantir等企业已率先接入。模型现已通过Hugging Face、OpenRouter及build.nvidia.com等平台开放权重与部署工具。