从点云到语义:SpatialLM 在 RDK X5 上的边缘端部署实践
SpatialLM_on_RDKX5 Demo
SpatialLM 是一个能够"看懂"三维空间的 AI 大模型。本文记录了如何将它部署到一块巴掌大小的嵌入式开发板上,实现端侧的空间语义理解。
一、为什么要把大模型塞进边缘设备?
2025 年,ManyCore 团队在 NeurIPS 上发表了 SpatialLM——一个面向三维空间理解的大语言模型。把它想象成"空间版 ChatGPT":输入一段点云数据(3D 扫描结果),它会告诉你——哪里有墙、哪里有门、床在哪个位置、沙发朝向哪边。
但 SpatialLM 原生依赖 GPU 运行。机器人、无人机、AR 眼镜这些真实世界的设备,算力极其有限。大模型如果只能在云端运行,就永远无法真正进入物理世界。
于是有了这个项目:将 SpatialLM 部署到 D-Robotics RDK X5(仅 10 TOPS 算力)上,让边缘设备自己"长眼睛"。
二、系统架构:PC 编码 + RDK X5 推理
为兼顾精度与效率,我们采用分离式部署架构:

| 阶段 | 在哪里 | 做什么 |
|---|---|---|
| 特征编码 | PC(GPU) | 用 SONATA 编码器将原始点云压缩为特征向量 |
| 语义推理 | RDK X5(CPU) | 加载轻量 SpatialLM 模型,输出语义标签与 3D 边界框 |
| 可视化 | PC Web | 以 Rerun 工具渲染交互式 3D 场景 |
整个流程自动化:用户在 Web 界面上传 .ply 点云 → PC 编码 → 网络传输至 RDK X5 → 模型推理 → 结果回传 PC 并渲染。
三、三种推理模式,灵活应对不同场景
SpatialLM 支持三种结构化推理任务,覆盖从粗略到精细的空间理解需求:
- 布局估计:识别墙体、门、窗的空间位置
- 物体检测:检测家具的类别与 3D 边界框(支持 59 个家具类别)
- 结构化重建:综合以上两者,完成完整空间建模
最具吸引力的是 Zero-shot 泛化能力:用自然语言指定目标类别(如"帮我找所有椅子和桌子"),模型无需重新训练即可聚焦检测。

四、效果展示
以下是从点云输入到语义标注的实际运行结果。模型成功识别出卧室场景中的床、床头柜、窗户、门、挂画与衣柜等物体,以 3D 包围盒和语义标签直观呈现。

从原始点云到含语义标签的 3D 场景,全流程无需任何手动标注。
五、技术亮点
1. 算力切分 —— 用架构换性能
将计算密集的 3D 点云编码卸载到 PC GPU,仅保留轻量级 LLM 推理在嵌入式端。10 TOPS 的算力也能驱动大模型。
2. 大模型轻量化
将原本依赖 CUDA 的 SpatialLM 适配为纯 CPU 运行,并正在探索 BPU 量化加速——目标是将推理时间从分钟级降至秒级。
3. LLM 的泛化魔力
传统 3D 检测模型每新增一种物体类别就需要重新标注和训练。而 SpatialLM 天然支持任意类别的 Zero-shot 检测——这正是语言模型范式带来的核心突破。
4. 工程闭环
从点云上传、编码传输、模型推理到可视化渲染,全链路打通,代码开源、可复现。
六、应用展望
边缘端的空间理解能力,是具身智能走向现实世界的关键基础设施:
- 服务机器人:走进陌生房间,一眼看懂布局和物体位置
- 自主导航:无人机 / 无人车在动态环境中实时感知与避障
- AR / VR:用手机拍一段视频,自动生成结构化 3D 模型
当大模型不再被禁锢在数据中心,而是走进每一块嵌入式芯片——那才是空间智能真正落地的开始。
七、项目链接
- 项目仓库:SpatialLM_on_RDKX5
- 上游论文:SpatialLM (NeurIPS 2025) | 官方仓库 (4.5k⭐)
- 硬件平台:D-Robotics RDK X5 (8×A55 @1.5GHz, 10 TOPS BPU, 8GB RAM)
Comments