Browser does not support (or has disabled) JavaScript, some features of this page may not work properly

从点云到语义:SpatialLM 在 RDK X5 上的边缘端部署实践

0:00
/1:49

SpatialLM_on_RDKX5 Demo

SpatialLM 是一个能够"看懂"三维空间的 AI 大模型。本文记录了如何将它部署到一块巴掌大小的嵌入式开发板上,实现端侧的空间语义理解。


一、为什么要把大模型塞进边缘设备?

2025 年,ManyCore 团队在 NeurIPS 上发表了 SpatialLM——一个面向三维空间理解的大语言模型。把它想象成"空间版 ChatGPT":输入一段点云数据(3D 扫描结果),它会告诉你——哪里有墙、哪里有门、床在哪个位置、沙发朝向哪边。

但 SpatialLM 原生依赖 GPU 运行。机器人、无人机、AR 眼镜这些真实世界的设备,算力极其有限。大模型如果只能在云端运行,就永远无法真正进入物理世界。

于是有了这个项目:将 SpatialLM 部署到 D-Robotics RDK X5(仅 10 TOPS 算力)上,让边缘设备自己"长眼睛"。


二、系统架构:PC 编码 + RDK X5 推理

为兼顾精度与效率,我们采用分离式部署架构

系统整体架构图
系统整体架构:PC 端负责点云编码,RDK X5 负责模型推理与可视化格式转换
阶段在哪里做什么
特征编码PC(GPU)用 SONATA 编码器将原始点云压缩为特征向量
语义推理RDK X5(CPU)加载轻量 SpatialLM 模型,输出语义标签与 3D 边界框
可视化PC Web以 Rerun 工具渲染交互式 3D 场景

整个流程自动化:用户在 Web 界面上传 .ply 点云 → PC 编码 → 网络传输至 RDK X5 → 模型推理 → 结果回传 PC 并渲染。


三、三种推理模式,灵活应对不同场景

SpatialLM 支持三种结构化推理任务,覆盖从粗略到精细的空间理解需求:

  • 布局估计:识别墙体、门、窗的空间位置
  • 物体检测:检测家具的类别与 3D 边界框(支持 59 个家具类别)
  • 结构化重建:综合以上两者,完成完整空间建模

最具吸引力的是 Zero-shot 泛化能力:用自然语言指定目标类别(如"帮我找所有椅子和桌子"),模型无需重新训练即可聚焦检测。

SpatialLM Web上传界面
Web 上传界面:支持 .ply 格式,一键启动处理流程

四、效果展示

以下是从点云输入到语义标注的实际运行结果。模型成功识别出卧室场景中的床、床头柜、窗户、门、挂画与衣柜等物体,以 3D 包围盒和语义标签直观呈现。

3D点云场景语义标注结果
结构化语义可视化:墙体以彩色线条标注,家具以 3D 包围盒显示,类别标签清晰可辨

从原始点云到含语义标签的 3D 场景,全流程无需任何手动标注


五、技术亮点

1. 算力切分 —— 用架构换性能

将计算密集的 3D 点云编码卸载到 PC GPU,仅保留轻量级 LLM 推理在嵌入式端。10 TOPS 的算力也能驱动大模型。

2. 大模型轻量化

将原本依赖 CUDA 的 SpatialLM 适配为纯 CPU 运行,并正在探索 BPU 量化加速——目标是将推理时间从分钟级降至秒级。

3. LLM 的泛化魔力

传统 3D 检测模型每新增一种物体类别就需要重新标注和训练。而 SpatialLM 天然支持任意类别的 Zero-shot 检测——这正是语言模型范式带来的核心突破。

4. 工程闭环

从点云上传、编码传输、模型推理到可视化渲染,全链路打通,代码开源、可复现。


六、应用展望

边缘端的空间理解能力,是具身智能走向现实世界的关键基础设施:

  • 服务机器人:走进陌生房间,一眼看懂布局和物体位置
  • 自主导航:无人机 / 无人车在动态环境中实时感知与避障
  • AR / VR:用手机拍一段视频,自动生成结构化 3D 模型

当大模型不再被禁锢在数据中心,而是走进每一块嵌入式芯片——那才是空间智能真正落地的开始。


七、项目链接

Author: Alan
Date:2026年06月11日

Comments