Browser does not support (or has disabled) JavaScript, some features of this page may not work properly

具身智能协同落地实战:基于云边端协同的多机器人 Agent 框架

随着具身智能的爆发,大模型指挥机器人作业成为趋势。然而在微缩物流沙盘等低成本自动化场景中,真实落地的阻力极大。本项目以两台 PuppyPi 四足机器狗和一台 Vansbot 六轴机械臂为控制对象,致力于解决以下三大痛点:

  1. 终端算力与感知缺失:低成本机器狗机载算力极弱,无激光雷达、无前视相机、甚至无可靠的里程计(纯“盲跑”),无法独立运行任何复杂的定位与规划算法。
  2. 异构设备通信碎片化:机械臂使用 HTTP,机器狗通过 WebSocket 和底层串口通信,而 ROS 又自成一派。传统的强耦合编码会导致系统的扩展性极差(加一个设备就要重构大量代码)。
  3. 多机并行的死锁风险:多个机器人共用同一物理空间,单线等待会导致严重的耗时,而一旦某台设备因网络或物理滑移卡死,极易拖垮整个流水线。

为了让这群算力捉襟见肘、语言还不通的“哑终端”听懂自然语言指令并顺畅协作,我设计并落地了一套云边端三层解耦的 Agent 架构。

0:00
/1:33

二狗一臂demo视频

核心架构:云边端各司其职的“解耦”设计

系统整体框架图
图1 云边端三层协同架构

云端 — 决策层:直接接入大语言模型。LLM 无需关心底层硬件协议,只需将自然语言(如“把左边的方块交给二号狗”)解析为结构化的有向无环图(DAG)任务序列。

边缘 — 全局感知 & 调度枢纽:本项目的核心。主控 PC 挂载 Intel RealSense D455 深度相机提供“上帝视角”。它承担两大职能:一是通过全局视觉为所有机器人提供实时高精度位姿;二是通过 OpenClaw 智能体框架的适配器模式,抹平底层 HTTP/串口等通信差异,统一向下层分发动作指令。

终端 — 物理执行层:PuppyPi 四足机器狗和 Vansbot 机械臂不跑任何复杂逻辑。它们只接收结构化指令——舵机角度、前进速度——执行逆运动学即可。所有计算负担被剥离到边缘层,终端层保持极致的轻量和可替换。

攻坚两座大山:视觉映射与物理控制

坑一:四足“盲狗”的侧滑漂移

PuppyPi 自身感知能力弱——没里程计、没激光雷达,定位全靠头顶 D455。更致命的是四足连杆结构的滑移特性:转弯时会出现明显的侧向漂移,传统 PID 导航容易“过冲”,到达目标点后原地反复校准,既耗时又容易偏出交接位置。

解决方案是带前瞻点的 Pure Pursuit 纯追踪算法。机器狗不会直接冲向目标,而是先到达目标后方约 28cm 的缓冲点,然后以平滑弧线驶入。算法根据横向位置误差实时计算追踪曲率 κ = 2Δy/Ld² 做连续运动学修正。配合 13cm 高度补偿的射线投影用于消除俯视透视导致的坐标内缩,整个定位管线为:YOLOv8-Pose 检测头尾关键点 → 5×5 邻域中值深度提取 → 射线求交投影 → 位姿合成 → Pure Pursuit 导航。这套组合让“盲狗”实现了厘米级精准停靠。

坑二:多机协同的死锁与断点续传

多机器人共用同一物理空间时,一个机器人卡死就能拖垮整个系统。本项目在 OpenClaw 中枢内置了定期状态轮询监护机制:独立监控线程每隔一秒查询各机器人状态(连接、忙碌、位置等),更新本地缓存。借鉴操作系统的防死锁理论,重点破坏“占有并等待”条件——当检测到机器人长时间持有通信锁不释放时,监控线程强制抢占并下发复位指令,中断死锁闭环。

在弱网或局部通信丢包场景下,状态轮询机制还能实现自动断点续传:主程序检测到终端长时间无响应时截获异常,触发中枢重新计数并重发指令,无需人工干预即可完成故障恢复。

项目成果与量化指标验证

在标准化室内桌面平台上进行了三项定量测试:

全局视觉测距精度:用物理标尺在 30cm、50cm、70cm 三种跨度下各 20 组(合计 60 组)测试,30cm 标准距离的识别均值约 29.30cm,整体标准差 0.86cm。核心区域内带有高度投影映射的位姿精度误差极少超过 1cm。

全局视觉三维测距对比
图2 全局视觉三维测距对比

机器狗停靠精度:从 30 个不同起始位置和朝向出发,用 Pure Pursuit 导航驶入固定交接点。停泊终点密集控制在 3cm 偏差圈内,终端偏航角极差锁定在 9° 以内(中位分布误差 4°–6°)。

机器狗停靠雷达散点分布图
图3 终端接驳点散点分布 — 平均距离误差 1.97cm,平均角度误差 -4.95°

端到端并行效率与鲁棒性:典型的“双狗一臂协同搬运”任务中,DAG 并行调度将两台机器狗的移动动作时间折叠,整体完成时间 68–104 秒。10 种复杂并发任务的端到端测试中,初次运行直接成功率约 90%,但系统在失败后能自动诊断异常类型、执行状态重置和指令重发,最终成功率 100%。

多机器人执行时序甘特图
图4 云边协同多机器人执行时序 — 视觉感知、抓取、双狗导航并行展开

技术栈一览

  • ☁️ 云端:LLM 自然语言解析 → DAG 任务树生成
  • 💡 边缘:Python + OpenClaw 框架 | YOLOv8-Pose | RANSAC 桌面标定 | 射线求交投影 | Pure Pursuit | 适配器模式多协议通信
  • 🤖 终端:PuppyPi 四足机器狗 + Vansbot 六轴机械臂
  • 📷 感知:Intel RealSense D455(1280×720 RGB-D)

这套框架的核心价值在于把大模型的语义理解能力和低算力硬件的物理执行打通了——让一群“又瞎又哑”的机器人在统一的智能体中枢下协同作业。更重要的是,它不是一个纸上方案,而是在真实硬件上完整跑通、经得起量化验证的工程系统。

Author: Alan
Date:2026年06月08日

Comments