Alan - 艾利安的博客 (Page 2)

狗品种分类：ResNet152 + Inception v3 + Xception 三模型集成的迁移学习实践

2024年08月31日作品集课程项目 AI

从过拟合到 91% 准确率——用 ResNet152 + Inception v3 + Xception 三模型特征融合，四轮迭代解决 120 种狗品种的细粒度分类问题。

当机械臂学会“看”和“听”：基于 GLM-4V 与 SAM 的智能机械臂系统

2024年07月31日作品集具身智能 AI

📅 本项目完成于 2023 年，是早期探索多模态大模型与机器人控制结合的实践。一、背景：让机械臂"听懂人话" 2023 年，GPT-4V、GLM-4V 等多模态大模型相继发布。它们不仅能读懂文字，还能"看懂"图片——这为机器人控制打开了一扇全新的大门。传统机械臂编程需要逐帧定义关节轨迹，费时费力且毫无泛化能力。而多模态大模型天生具备语义理解 + 视觉感知的能力——如果能让大模型直接"指挥"机械臂，会怎样？带着这个问题，我们开发了一套基于 GLM-4V 多模态大模型的智能机械臂系统：用户只需用自然语言说出任务（如"把桌面上的方块捡起来"），系统就能自主完成从感知到执行的全流程闭环。二、系统架构：四大模块协同系统由四个核心模块构成，数据在它们之间流转形成完整的感知-决策-执行链路：模块技术方案部署位置职责语音识别OpenAI WhisperPC

…