OmniTools 6月2日消息,NVIDIA发布的全模态世界模型Cosmos 3在开放权重类别中,同时位列文本生成图像和图像生成视频两项基准评测榜首。
该模型采用Mixture-of-Transformers架构,集成自回归推理器与扩散生成器,提供16B参数的Nano与64B参数的Super两个变体。其中,Cosmos3-Super-Text2Image与Cosmos3-Super-Image2Video版本在评测中超越HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 【dev】、LTX-2及万相(Wan)2.2 A14B等模型。
Cosmos 3生成器支持结构化JSON提示词输入,可通过外部工具或其内置推理器分支实现提示词上采样。模型已完全开源,采用OpenMDW 1.1许可,同步发布权重、代码、精选数据集及微调方案。