Browser does not support (or has disabled) JavaScript, some features of this page may not work properly

让机械臂“看懂”世界:基于 WALL-OSS 的 SO-101 模仿学习实践

0:00
/0:48

OpenClaw SO101机械臂Demo


一、为什么做这件事?

如果说大语言模型让 AI 学会了"说",那具身智能(Embodied AI)就是让 AI 学会"做"——它不仅要理解人类语言,还要在物理世界中执行动作。

这件事的难度远超想象。传统的机器人控制依赖精确编程:每个关节角度、每条运动轨迹都需要工程师手动设计。一旦环境发生变化——比如物体位置移动了几厘米,整套程序就可能失效。

模仿学习(Imitation Learning) 提供了一条完全不同的路径:让人先做一遍,机器人看着学。这就像师傅带徒弟——不需要写任何控制代码,只需要"手把手"教它。

本项目的核心目标是:在一个低成本开源机械臂上,实现端到端的视觉-语言-动作(VLA)闭环控制——你只需说一句话,机械臂就能自主完成任务。

SO-101 执行臂
SO-101 执行臂(Follower),搭载 LeRobot 生态

二、硬件平台:开源六轴机械臂 SO-101

项目选用的是 TheRobotStudio 与 HuggingFace 联合设计的 SO-101 六轴机械臂。选择它的理由很明确:

  • 完全开源:从 3D 打印图纸到控制代码全部公开,BOM 成本约 $300–400;
  • LeRobot 生态原生支持:HuggingFace 的 LeRobot 框架已内置 SO-101 的驱动、校准和遥操作接口,开箱即用;
  • Leader-Follower 双臂架构:一只手(Leader)用于人类遥操作示教,另一只手(Follower)同步执行,天然适配模仿学习数据采集流程。

硬件搭建过程包括:舵机组装与 ID 配置 → 3D 打印件安装 → 双臂校准。整个过程一个人即可完成,从零件到跑通遥操作大约需要一到两天。

SO-101 示教臂
SO-101 示教臂(Leader),用于人类遥操作采集数据

三、数据采集:遥操作示教 110 条

模仿学习的核心是高质量示教数据。数据采集流程如下:

人类操作 Leader 臂  →  Follower 臂同步复现  →  双摄像头录制  →  LeRobot 数据集

我为"将物体精准放置到移动机器狗背部"这一任务,遥操作采集了 110 条示教轨迹。每条轨迹包含:

  • 6 个关节的角度序列
  • 腕部 RGB 相机(640×480, 30fps)
  • 旁边 Intel RealSense L515 深度相机(640×480, 30fps)
  • 自然语言任务描述

数据集以 LeRobot v3.0 格式存储,可直接用于 HuggingFace 生态下的模型训练。


四、模型:WALL-OSS VLA 基础模型微调

传统的模仿学习模型(如 ACT、Diffusion Policy)只接受视觉输入、输出动作,缺乏对自然语言指令的理解能力。

WALL-OSS 是 X-Square Robot 团队开源的 视觉-语言-动作(VLA)基础模型,基于 Qwen2.5-VL-3B 骨干。其核心设计亮点:

  • 紧密耦合 MoE 架构:视觉-语言专家与动作专家分离,既保留 VLM 语义理解能力,又具备高频连续动作生成能力;
  • Flow Matching 动作生成:以连续流匹配替代离散动作 token 化,实现平滑、高精度的轨迹预测;
  • 两阶段训练(Inspiration → Integration):先在 VLM 中注入离散动作先验,再通过流匹配实现精细控制。

微调在实验室多卡 GPU 服务器上完成,使用 LeRobot 训练管线,110 条数据数小时即可收敛:

LeRobot 数据集 → WALL-OSS 预训练权重 → 全量微调 → 可部署策略

模型未做量化,推理时单卡 GPU 显存占用约 18GB


五、推理部署:GPU 服务 + 实时控制

部署采取了GPU 推理服务 + PC 端实时控制的分离架构:

角色设备职责
推理服务器GPU 服务器(单卡)加载 WALL-OSS 模型,接收观测数据,返回动作预测
控制端PC + SO-101 + 双摄像头采集实时图像/关节状态 → 发送推理请求 → 执行动作指令

每个控制周期,PC 端将腕部相机图像和关节状态打包发送至 GPU 推理服务,收到动作预测后立即执行,形成端到端感知-决策-执行闭环


六、成果

经过 110 条示教数据的微调训练,模型成功学会了将目标物体从桌面抓取并精准放置到移动机器狗的背部平台上——这一任务涉及空间定位、路径规划和精确末端控制。

核心指标:

  • 任务成功率:稳定完成「抓取 → 移动 → 放置」全流程闭环
  • 泛化能力:对不同初始位置的物体均能适应
  • 显存效率:单卡 18GB,未量化完整 FP16 推理

更值得关注的是,这套低成本开源硬件 + 开源 VLA 模型 + 小样本微调的技术路线,验证了具身智能在实验室环境下快速落地的可行性——不再依赖昂贵的工业机械臂和海量数据。

后续,这台 SO-101 机械臂被集成到了多机器人 Agent 协同框架中,与两台机器狗组成"二狗一臂"系统(见上方协同 Demo 视频),实现了云端决策、边缘调度、终端执行的全栈闭环。


0:00
/1:29

OpenClaw二狗一臂demo视频,任务:机械狗1前往装货区装货,然后去卸货区卸货。与此同时,狗2前往停靠区停靠等待,当机械臂在装货时,狗2再前往充电区。


延伸阅读

Author: Alan
Date:2026年06月10日

Comments