📅 本项目完成于 2023 年,是早期探索多模态大模型与机器人控制结合的实践。 一、背景:让机械臂"听懂人话" 2023 年,GPT-4V、GLM-4V 等多模态大模型相继发布。它们不仅能读懂文字,还能"看懂"图片——这为机器人控制打开了一扇全新的大门。 传统机械臂编程需要逐帧定义关节轨迹,费时费力且毫无泛化能力。而多模态大模型天生具备语义理解 + 视觉感知的能力——如果能让大模型直接"指挥"机械臂,会怎样? 带着这个问题,我们开发了一套基于 GLM-4V 多模态大模型的智能机械臂系统:用户只需用自然语言说出任务(如"把桌面上的方块捡起来"),系统就能自主完成从感知到执行的全流程闭环。 二、系统架构:四大模块协同 系统由四个核心模块构成,数据在它们之间流转形成完整的感知-决策-执行链路: 模块技术方案部署位置职责 语音识别OpenAI WhisperPC