OmniTools 6月1日消息,英伟达正式发布开源世界基础模型(WFM)Cosmos 3,定位为首个面向物理AI推理与行动的开放型全模态模型(omni-model)。该模型基于混合Transformer(MoT)架构,统一支持文本、图像、视频、音频及动作等多种输入与输出模态,在单次前向传播中即可完成世界生成、物理推理与动作生成。
Cosmos 3提供两个版本:8B参数的Cosmos 3 Nano适用于工作站级GPU(如RTX PRO 6000),32B参数的Cosmos 3 Super面向大规模合成数据生成与研究,需运行于NVIDIA Hopper或Blackwell架构GPU。模型已上线Hugging Face,并集成Diffusers库,支持Text-to-Video、Image-to-Video等生成管线。
同步发布的还包括六类合成数据集,覆盖机器人操作、物理交互、空间推理、数字人动作、自动驾驶及仓储安全等场景,全部开源并托管于Hugging Face平台。