给机器狗装上「大脑」：基于大语言模型的具身智能狗系统

一、让机器狗「听懂」人话

想象一下：你对着四足机器狗说一句「去实验室转一圈，看看有没有人在」，然后它就自己跑出去了——自主导航、识别环境、回来向你汇报。这不是科幻电影，而是我在课题组用一年时间从零搭建的大语言模型驱动的具身智能狗系统。

这项工作的核心命题很直接：如何让四足机器人理解自然语言指令，并在真实环境中自主完成任务？ 这需要打通三个关键环节——语义理解（听懂人话）、环境感知（看懂世界）、运动控制（走得稳当）。而我的答案是：用一个三层级的大模型系统，把这三个环节有机串联起来。

宇树 Unitree Go2 四足机器狗实验平台，搭载 NVIDIA Orin Nano 边缘计算模块

二、系统架构：三层级大模型系统

让机器狗自主完成任务，不是简单地给大模型接个 API 就能搞定的事。真实环境中的机器人系统需要同时处理语义理解、空间感知、长期记忆、实时控制等多种需求，单一模型根本无法胜任。

我设计了一套三层级 LLM 系统架构，将不同性质的任务分配给不同层级的模型：

三层级系统架构图 — 三层级 LLM 系统架构：决策层 → 记忆/感知层 → 执行层，各层职责分明

层级	角色	核心能力	技术方案
顶层 · 决策层	机器人的「大脑」	自然语言理解、任务分解与规划、人机对话	大语言模型（云端推理）
中间层 · 感知记忆层	机器人的「海马体」	环境记忆构建与检索、SLAM 建图定位、导航规划	ReMEmbR + Point-LIO + Nav2
底层 · 执行层	机器人的「小脑」	实时运动控制、传感器数据采集、安全急停	autonomy_stack_go2（ROS2）

这套架构的核心思想是「让合适的模型做合适的事」：大模型负责需要深度推理的语义理解和任务规划（慢但聪明），小模型负责需要实时响应的感知和控制（快且可靠）。

一条典型指令的执行流程：用户说「去 B 区看看有没有空座位」→ 顶层 LLM 解析意图并分解为子任务（导航到 B 区 → 扫描座位 → 返回报告）→ 中间层 ReMEmbR 检索 B 区环境记忆，SLAM 提供实时定位，Nav2 规划路径 → 底层执行运动控制，全程实时反馈状态。

三、核心创新：魔改 ReMEmbR — 给机器人装上「长期记忆」

传统机器人的一大痛点是没有记忆——每次执行任务都像失忆了一样从零开始。而人类之所以能在复杂环境中高效行动，很大程度上依赖对环境的长期记忆。

ReMEmbR 是 NVIDIA 提出的检索增强型机器人记忆系统，我在此基础上进行了针对性魔改，使其适配 Go2 四足平台和实际应用场景：

模块	我们的 ReMEmbR 方案
视觉描述	适配任意 VLM 的场景描述
向量存储	MilvusDB 通用存储
记忆检索	融合时空邻近性的混合检索策略
推理查询	多轮递进式推理，支持模糊时空查询

魔改后的 ReMEmbR 让机器狗具备了带时间维度的环境记忆——它不仅能记住「厨房在哪里」，还能记住「半小时前厨房里有三个人在讨论」。这种能力对于长时部署场景（如巡检、安防）至关重要。

四、自主导航：Point-LIO + Nav2 双引擎

要让机器狗在真实环境中自主移动，定位精度和路径规划是两个必须同时解决的问题。

在定位建图方面，我集成了 Point-LIO 算法——它是一种基于激光雷达-惯性里程计的 SLAM 方案，相比传统方法有两个显著优势：点云级融合（而非特征级）使得在退化环境（如长走廊）中依然稳定；计算效率高，可以在 Orin Nano 边缘设备上实时运行。

在路径规划方面，采用了 ROS2 生态下的 Nav2 导航栈。Nav2 提供了完整的行为树驱动导航框架：全局规划器（Global Planner）负责长距离路径生成，局部控制器（Controller）负责实时避障和速度平滑，行为树（Behavior Tree）将导航过程中的异常恢复（如被堵住后的重新规划）自动化处理。

Point-LIO 提供精确的实时定位，Nav2 利用这个定位进行路径规划——两者配合形成了「我在哪里 → 我要去哪 → 怎么过去」的完整导航闭环。

五、Prompt 工程：让大模型输出「可执行」的指令

大模型擅长聊天，但让大模型输出机器人的运动指令完全是另一回事。我花了大量精力在 Prompt 工程设计上，主要解决了两个问题：

🧩 模糊指令分解：用户不会像程序员一样发指令。「去帮我看看外面」这种模糊指令会被 LLM 自动分解为「打开门 → 移动到室外 → 拍摄照片 → 返回 → 报告所见」的清晰子任务序列。
🔄 任务反馈闭环：每个子任务执行完毕后，执行层会向 LLM 报告状态（成功/失败/异常），LLM 据此动态调整后续计划。比如导航途中发现路径被挡住，LLM 会重新规划替代路径。

六、成果与意义

经过一年的迭代开发，这套三层级大模型系统在 Unitree Go2 平台上实现了从自然语言指令到自主任务执行的完整闭环：

✅ 自然语言控制：用户用日常口语下达指令，无需任何编程或预定义命令
✅ 长期环境记忆：基于魔改 ReMEmbR 的时空记忆系统，支持历史信息检索与推理
✅ 自主导航避障：Point-LIO + Nav2 双引擎，在复杂室内环境中稳定运行
✅ 安全可控：多层安全机制（Prompt 约束 + 行为树异常恢复 + 底层急停）
✅ 专利产出：「多模态大模型的具身智能化」发明专利一项，第一发明人

这个项目给我的最大启示是：大模型在机器人领域的价值，不在于替代传统算法，而在于它提供了一个统一的「意图理解层」——把人类模糊的自然语言，转化为机器可执行的精确指令序列。从这个视角看，LLM 更像是机器人系统的「操作系统」而非「应用软件」。