Browser does not support (or has disabled) JavaScript, some features of this page may not work properly

多模态

3 Posts

具身智能记忆与导航领域最新研究简要分析:2024年末至2025年顶刊顶会

具身智能领域最新研究成果报告:2024年末至2025年顶刊顶会综述 引言:具身智能及其研究背景 具身智能(Embodied AI)旨在构建能够与物理世界进行感知、行动和学习互动的智能体,例如机器人。其核心目标是使机器人在复杂、动态的真实环境中自主执行任务,并展现出类似于人类的理解、规划与决策能力 1。这一新兴领域深度融合了计算机视觉、自然语言处理、强化学习和机器人学等前沿学科的最新进展,旨在将人工智能从传统的被动信息处理模式提升至主动的物理世界交互层面 1。 在机器人长期部署的场景中,例如持续数小时乃至数天的运行,如何高效地积累、存储并检索其在部署过程中所感知到的海量历史信息,包括动态事件和非静态物体,对于机器人理解环境、响应用户查询以及执行复杂任务而言至关重要 6。传统的机器人系统在处理长时间跨度的感知数据时面临显著挑战。例如,基于Transformer的模型在处理长视频上下文时计算成本高昂,而如LSTM等状态空间模型可能出现“遗忘”现象,限制了机器人对过去经验进行时空推理的能力 6。因此,开发可扩展、高效的长时程记忆机制,以支持机器人对“看到了什么”、“在哪里发生”、“什么

自建Gemini API音视频对话和中转使用方法

该网站可以作为Gemini API的音视频对话和中转,白嫖免费的Gemini额度。 使用的开源项目:https://github.com/tech-shrimp/gemini-playground 首先需要前往获取 API 密钥 | Google AI Studio 音视频对话 访问网址 在图中位置填入获取的api key,点击connect,开启麦克风(mic),根据需要开启视频(videocam)和屏幕共享(screen_share),即可与Gemini进行音视频对话。 API中转方法(OpenAI格式) 以cherry studio为例,api url地址填入 https://alanm12-gemini.deno.dev/v1/ 并填入api key即可对话。 cherry studio下载地址 声明:本服务仅用于学习。禁止用于政见输出/瑟瑟内容/诈骗活动。违者后果自负。使用即代表您同意承担全部法律责任。

摆烂老师太多了?没关系,AI来教你!

你是否遇到过这些场景? * PPT大段外语,根本get不到重点🥲 * 老师只会念PPT/全程讲外语/说话太小声/口音很重,上课体验不佳😴 * 但是考试却以PPT为主😭 最近我开发了一个小工具 PPT-Study-Agent,用视觉语言模型(VLM)帮你自动化处理PPT学习。欢迎来GitHub看看: ➡️ 项目地址:https://github.com/Alan1112223331/PPT-Study-Agent ⬅️ 功能亮点 * 多格式支持:.ppt/.pptx/.pdf 直接读取 * AI讲解与翻译:解析文字、图表与排版逻辑 * 上下文关联:跨页追踪概念演进 * 进度可视化:实时显示处理状态 效果示例 适合人群 * 需要处理外文课件的各类人群 项目持续迭代中,欢迎Star/Issue/PR ✨ TODO * 完成公式显示的支持 * 优化文件保存系统 * 添加多用户管理系统