OmniTools 6月20日消息,NVIDIA Research 推出 SpatialClaw,一种无需训练的空间推理框架。该框架将代码作为动作接口,使智能体可动态调用 Depth Anything 3、SAM 3 等感知工具,并自由组合其输出,以增强视觉语言模型在 3D 空间理解与判断方面的能力。
在涵盖 20 项任务的基准测试中,SpatialClaw 平均准确率达 59.9%,较近期智能体 SpaceTools 提升 11.2 个百分点,较无工具基线高 6.5 个百分点,较结构化工具调用方案高 3.2 个百分点。
该框架不依赖模型微调,同一提示词与工具集可跨不同基准及骨干网络复用,已验证支持 Qwen3.5/3.6、Gemma4 等参数量从 26B 至 397B 的大语言模型。