让机械臂“看懂”世界：基于 WALL-OSS 的 SO-101 模仿学习实践

如果说大语言模型让 AI 学会了"说"，那具身智能（Embodied AI）就是让 AI 学会"做"——它不仅要理解人类语言，还要在物理世界中执行动作。

这件事的难度远超想象。传统的机器人控制依赖精确编程：每个关节角度、每条运动轨迹都需要工程师手动设计。一旦环境发生变化——比如物体位置移动了几厘米，整套程序就可能失效。

模仿学习（Imitation Learning） 提供了一条完全不同的路径：让人先做一遍，机器人看着学。这就像师傅带徒弟——不需要写任何控制代码，只需要"手把手"教它。

本项目的核心目标是：在一个低成本开源机械臂上，实现端到端的视觉-语言-动作（VLA）闭环控制——你只需说一句话，机械臂就能自主完成任务。

项目选用的是 TheRobotStudio 与 HuggingFace 联合设计的 SO-101 六轴机械臂。选择它的理由很明确：

完全开源：从 3D 打印图纸到控制代码全部公开，BOM 成本约 $300–400；
LeRobot 生态原生支持：HuggingFace 的 LeRobot 框架已内置 SO-101 的驱动、校准和遥操作接口，开箱即用；
Leader-Follower 双臂架构：一只手（Leader）用于人类遥操作示教，另一只手（Follower）同步执行，天然适配模仿学习数据采集流程。

硬件搭建过程包括：舵机组装与 ID 配置 → 3D 打印件安装 → 双臂校准。整个过程一个人即可完成，从零件到跑通遥操作大约需要一到两天。

模仿学习的核心是高质量示教数据。数据采集流程如下：

人类操作 Leader 臂  →  Follower 臂同步复现  →  双摄像头录制  →  LeRobot 数据集

我为"将物体精准放置到移动机器狗背部"这一任务，遥操作采集了 110 条示教轨迹。每条轨迹包含：

数据集以 LeRobot v3.0 格式存储，可直接用于 HuggingFace 生态下的模型训练。

传统的模仿学习模型（如 ACT、Diffusion Policy）只接受视觉输入、输出动作，缺乏对自然语言指令的理解能力。

WALL-OSS 是 X-Square Robot 团队开源的 视觉-语言-动作（VLA）基础模型，基于 Qwen2.5-VL-3B 骨干。其核心设计亮点：

微调在实验室多卡 GPU 服务器上完成，使用 LeRobot 训练管线，110 条数据数小时即可收敛：

LeRobot 数据集 → WALL-OSS 预训练权重 → 全量微调 → 可部署策略

模型未做量化，推理时单卡 GPU 显存占用约 18GB。

部署采取了GPU 推理服务 + PC 端实时控制的分离架构：

角色	设备	职责
推理服务器	GPU 服务器（单卡）	加载 WALL-OSS 模型，接收观测数据，返回动作预测
控制端	PC + SO-101 + 双摄像头	采集实时图像/关节状态 → 发送推理请求 → 执行动作指令

每个控制周期，PC 端将腕部相机图像和关节状态打包发送至 GPU 推理服务，收到动作预测后立即执行，形成端到端感知-决策-执行闭环。

经过 110 条示教数据的微调训练，模型成功学会了将目标物体从桌面抓取并精准放置到移动机器狗的背部平台上——这一任务涉及空间定位、路径规划和精确末端控制。

核心指标：

更值得关注的是，这套低成本开源硬件 + 开源 VLA 模型 + 小样本微调的技术路线，验证了具身智能在实验室环境下快速落地的可行性——不再依赖昂贵的工业机械臂和海量数据。

后续，这台 SO-101 机械臂被集成到了多机器人 Agent 协同框架中，与两台机器狗组成"二狗一臂"系统（见下方协同 Demo 视频），实现了云端决策、边缘调度、终端执行的全栈闭环。

OpenClaw二狗一臂demo视频，任务：机械狗1前往装货区装货，然后去卸货区卸货。与此同时，狗2前往停靠区停靠等待，当机械臂在装货时，狗2再前往充电区。

Comments