多模态 - 艾利安的博客

具身智能记忆与导航领域最新研究简要分析：2024年末至2025年顶刊顶会

2026年05月23日具身智能 AI 大模型多模态论文调研

具身智能领域最新研究成果报告：2024年末至2025年顶刊顶会综述引言：具身智能及其研究背景具身智能（Embodied AI）旨在构建能够与物理世界进行感知、行动和学习互动的智能体，例如机器人。其核心目标是使机器人在复杂、动态的真实环境中自主执行任务，并展现出类似于人类的理解、规划与决策能力 1。这一新兴领域深度融合了计算机视觉、自然语言处理、强化学习和机器人学等前沿学科的最新进展，旨在将人工智能从传统的被动信息处理模式提升至主动的物理世界交互层面 1。在机器人长期部署的场景中，例如持续数小时乃至数天的运行，如何高效地积累、存储并检索其在部署过程中所感知到的海量历史信息，包括动态事件和非静态物体，对于机器人理解环境、响应用户查询以及执行复杂任务而言至关重要 6。传统的机器人系统在处理长时间跨度的感知数据时面临显著挑战。例如，基于Transformer的模型在处理长视频上下文时计算成本高昂，而如LSTM等状态空间模型可能出现“遗忘”现象，限制了机器人对过去经验进行时空推理的能力 6。因此，开发可扩展、高效的长时程记忆机制，以支持机器人对“看到了什么”、“在哪里发生”、“什么

…

自建Gemini API音视频对话和中转使用方法

2026年05月23日 API Gemini 多模态大模型

该网站可以作为Gemini API的音视频对话和中转，白嫖免费的Gemini额度。使用的开源项目：https://github.com/tech-shrimp/gemini-playground 首先需要前往获取 API 密钥 | Google AI Studio 音视频对话访问网址在图中位置填入获取的api key，点击connect，开启麦克风（mic），根据需要开启视频（videocam）和屏幕共享（screen_share），即可与Gemini进行音视频对话。 API中转方法（OpenAI格式）以cherry studio为例，api url地址填入 https://alanm12-gemini.deno.dev/v1/ 并填入api key即可对话。 cherry studio下载地址声明：本服务仅用于学习。禁止用于政见输出/瑟瑟内容/诈骗活动。违者后果自负。使用即代表您同意承担全部法律责任。

…

摆烂老师太多了？没关系，AI来教你!

2026年05月23日 AI应用多模态大模型 AI

你是否遇到过这些场景？ * PPT大段外语，根本get不到重点🥲 * 老师只会念PPT/全程讲外语/说话太小声/口音很重，上课体验不佳😴 * 但是考试却以PPT为主😭 最近我开发了一个小工具 PPT-Study-Agent，用视觉语言模型(VLM)帮你自动化处理PPT学习。欢迎来GitHub看看： ➡️ 项目地址：https://github.com/Alan1112223331/PPT-Study-Agent ⬅️ 功能亮点 * 多格式支持：.ppt/.pptx/.pdf 直接读取 * AI讲解与翻译：解析文字、图表与排版逻辑 * 上下文关联：跨页追踪概念演进 * 进度可视化：实时显示处理状态适合人群 * 需要处理外文课件的各类人群项目持续迭代中，欢迎Star/Issue/PR ✨ TODO * 完成公式显示的支持 * 优化文件保存系统 * 添加多用户管理系统

…

从点云到语义：SpatialLM 在 RDK X5 上的边缘端部署实践

2025年12月31日作品集具身智能大模型 AI 机器人多模态

如何把需要 GPU 的 SpatialLM 3D 大模型，塞进一块仅 10 TOPS 算力的嵌入式开发板？本文记录了 PC 编码 + RDK X5 推理的分离式部署实践。

…

给机器狗装上「大脑」：基于大语言模型的具身智能狗系统

2025年09月30日作品集具身智能大模型 AI 机器人多模态

从自然语言到自主行动——用三层级大模型系统让四足机器狗理解人类指令、记住环境信息、自主导航执行任务。

…