NVIDIA Research 发布免训练空间推理框架 SpatialClaw

OmniTools 6月20日消息，NVIDIA Research 推出 SpatialClaw，一种无需训练的空间推理框架。该框架将代码作为动作接口，使智能体可动态调用 Depth Anything 3、SAM 3 等感知工具，并自由组合其输出，以增强视觉语言模型在 3D 空间理解与判断方面的能力。

在涵盖 20 项任务的基准测试中，SpatialClaw 平均准确率达 59.9%，较近期智能体 SpaceTools 提升 11.2 个百分点，较无工具基线高 6.5 个百分点，较结构化工具调用方案高 3.2 个百分点。

该框架不依赖模型微调，同一提示词与工具集可跨不同基准及骨干网络复用，已验证支持 Qwen3.5/3.6、Gemma4 等参数量从 26B 至 397B 的大语言模型。