从点云到语义：SpatialLM 在 RDK X5 上的边缘端部署实践

SpatialLM 是一个能够"看懂"三维空间的 AI 大模型。本文记录了如何将它部署到一块巴掌大小的嵌入式开发板上，实现端侧的空间语义理解。

一、为什么要把大模型塞进边缘设备？

2025 年，ManyCore 团队在 NeurIPS 上发表了 SpatialLM——一个面向三维空间理解的大语言模型。把它想象成"空间版 ChatGPT"：输入一段点云数据（3D 扫描结果），它会告诉你——哪里有墙、哪里有门、床在哪个位置、沙发朝向哪边。

但 SpatialLM 原生依赖 GPU 运行。机器人、无人机、AR 眼镜这些真实世界的设备，算力极其有限。大模型如果只能在云端运行，就永远无法真正进入物理世界。

于是有了这个项目：将 SpatialLM 部署到 D-Robotics RDK X5（仅 10 TOPS 算力）上，让边缘设备自己"长眼睛"。

为兼顾精度与效率，我们采用分离式部署架构：

阶段	在哪里	做什么
特征编码	PC（GPU）	用 SONATA 编码器将原始点云压缩为特征向量
语义推理	RDK X5（CPU）	加载轻量 SpatialLM 模型，输出语义标签与 3D 边界框
可视化	PC Web	以 Rerun 工具渲染交互式 3D 场景

整个流程自动化：用户在 Web 界面上传 .ply 点云 → PC 编码 → 网络传输至 RDK X5 → 模型推理 → 结果回传 PC 并渲染。

SpatialLM 支持三种结构化推理任务，覆盖从粗略到精细的空间理解需求：

最具吸引力的是 Zero-shot 泛化能力：用自然语言指定目标类别（如"帮我找所有椅子和桌子"），模型无需重新训练即可聚焦检测。

以下是从点云输入到语义标注的实际运行结果。模型成功识别出卧室场景中的床、床头柜、窗户、门、挂画与衣柜等物体，以 3D 包围盒和语义标签直观呈现。

从原始点云到含语义标签的 3D 场景，全流程无需任何手动标注。

将计算密集的 3D 点云编码卸载到 PC GPU，仅保留轻量级 LLM 推理在嵌入式端。10 TOPS 的算力也能驱动大模型。

将原本依赖 CUDA 的 SpatialLM 适配为纯 CPU 运行，并正在探索 BPU 量化加速——目标是将推理时间从分钟级降至秒级。

传统 3D 检测模型每新增一种物体类别就需要重新标注和训练。而 SpatialLM 天然支持任意类别的 Zero-shot 检测——这正是语言模型范式带来的核心突破。

从点云上传、编码传输、模型推理到可视化渲染，全链路打通，代码开源、可复现。

边缘端的空间理解能力，是具身智能走向现实世界的关键基础设施：

当大模型不再被禁锢在数据中心，而是走进每一块嵌入式芯片——那才是空间智能真正落地的开始。

Tags: 作品集具身智能大模型 AI 机器人多模态

Author: Alan

Date:2025年12月31日