NVIDIA发布人形机器人基础模型Isaac GR00T N1.7早期访问版。该模型为开源且支持商业许可的视觉-语言-动作(VLA)模型,参数量为30亿,旨在将视觉观察和自然语言指令映射为连续的机器人动作。
GR00T N1.7采用Action Cascade双系统架构,结合Cosmos-Reason2-2B视觉语言模型进行高级任务推理,以及32层Diffusion Transformer进行实时底层电机控制。训练数据方面,该模型基于超2万小时的人类第一人称视角视频(EgoScale)进行预训练,较前代N1.6使用的遥操作数据规模实现数量级提升。
研究团队首次验证了机器人灵巧性的缩放定律:增加人类第一人称视频数据可稳定提升灵巧操作能力,数据量从1千小时增至2万小时使平均任务完成率翻倍以上。该模型已在Unitree G1等机器人平台完成验证,支持LeRobot数据集格式微调,并兼容NVIDIA Ampere至Blackwell及Jetson等硬件平台,可作为N1.6的直接替换方案。