通义千问发布Qwen-RobotManip：基于VLA架构的机器人操作基础模型

OmniTools 6月16日消息，通义千问官方宣布推出Qwen-RobotManip，这是一款基于Qwen-VL构建的视觉-语言-动作（VLA）基础模型。该模型引入覆盖表示、运动与行为三维度的统一对齐框架，预训练语料约3.81万小时，全部源自开源机器人数据集及人类演示视频，涵盖15种机器人形态。

技术层面，模型采用80维状态-动作表示，并构建人-机器人数据合成管道（将1933小时第一人称视频扩展为2.48万小时数据），支持上下文策略适配。在多项基准测试中表现优异：LIBERO-Plus达91.4%，RoboTwin-C2R Hard达69.4%，RoboTwin-IF达72.0%，EBench达45.6%，并在RoboChallenge Table30 v1通用赛道夺冠。