返回行业动态

通义千问发布Qwen-RobotManip:基于VLA架构的机器人操作基础模型

2026/06/16 04:52
查看原文

OmniTools 6月16日消息,通义千问官方宣布推出Qwen-RobotManip,这是一款基于Qwen-VL构建的视觉-语言-动作(VLA)基础模型。该模型引入覆盖表示、运动与行为三维度的统一对齐框架,预训练语料约3.81万小时,全部源自开源机器人数据集及人类演示视频,涵盖15种机器人形态。

技术层面,模型采用80维状态-动作表示,并构建人-机器人数据合成管道(将1933小时第一人称视频扩展为2.48万小时数据),支持上下文策略适配。在多项基准测试中表现优异:LIBERO-Plus达91.4%,RoboTwin-C2R Hard达69.4%,RoboTwin-IF达72.0%,EBench达45.6%,并在RoboChallenge Table30 v1通用赛道夺冠。