NVIDIA发布开源人形机器人基础模型GR00T N1.7

NVIDIA发布人形机器人基础模型Isaac GR00T N1.7早期访问版。该模型为开源且支持商业许可的视觉-语言-动作（VLA）模型，参数量为30亿，旨在将视觉观察和自然语言指令映射为连续的机器人动作。

GR00T N1.7采用Action Cascade双系统架构，结合Cosmos-Reason2-2B视觉语言模型进行高级任务推理，以及32层Diffusion Transformer进行实时底层电机控制。训练数据方面，该模型基于超2万小时的人类第一人称视角视频（EgoScale）进行预训练，较前代N1.6使用的遥操作数据规模实现数量级提升。

研究团队首次验证了机器人灵巧性的缩放定律：增加人类第一人称视频数据可稳定提升灵巧操作能力，数据量从1千小时增至2万小时使平均任务完成率翻倍以上。该模型已在Unitree G1等机器人平台完成验证，支持LeRobot数据集格式微调，并兼容NVIDIA Ampere至Blackwell及Jetson等硬件平台，可作为N1.6的直接替换方案。