MarkTechPost 发布了一项新教程,介绍如何构建一个受视觉 语言 动作(VLA)启发的轻量级具身智能体。该智能体能够直接从像素观察中进行感知、规划、预测和重新规划。 教程使用纯 NumPy 渲染的网格世界,让智能体观察 RGB 帧而非符号状态变量,从而模拟简化的 VLA 流程。此外,该教程还涵盖了如何训练一个轻量级世界模型,并结合模型预测控制(MPC)来实现智能体的决策。