新闻中心

EEPW首页 > 机器人 > 业界动态 > 波士顿动力机器狗借助谷歌 Gemini AI,现已能读取仪表与温度计

波士顿动力机器狗借助谷歌 Gemini AI,现已能读取仪表与温度计

—— 谷歌 AI 让机器人在工业巡检中具备仪表读取能力
作者: 时间:2026-04-16 来源: 收藏

的四足机器人 Spot,如今可在工厂、仓库等场景精准读取模拟式温度计、压力表等设备。这一能力升级来自 DeepMind 最新的机器人 AI 模型,旨在提升机器人与物理环境交互时的具身推理能力。

DeepMind 在 4 月 14 日发布的全新模型Gemini Robotics-ER 1.6,被定位为 “机器人高级推理模型”,可自主规划并执行任务。该模型让机器人能精准读取复杂仪表、通过视镜观察罐体与管道内部,实现视觉巡检能力大幅提升。这一突破是 DeepMind 与长期合作的成果。

正积极在各类工业场景测试四足与人形机器人,包括其母公司现代汽车集团的汽车工厂。该公司的 Spot 已在试点中担任巡检员,在厂区内自主巡查各类设备。这类巡检任务需要复杂视觉推理,以识别仪表的多指针、液位、刻度、边界与文字信息。

核心驱动模型

Gemini Robotics-ER 1.6 为机器人提供了智能体视觉(agentic vision),将视觉推理与代码执行能力结合,生成 “视觉草稿本” 用于图像检测与处理。该能力最早在 2026 年 1 月的谷歌 Gemini 3.0 Flash 中推出。

据公布数据,智能体视觉让机器人仪表读取任务的准确率从旧版Gemini Robotics-ER 1.523%,大幅提升至新版1.698%。作为对比,Gemini 3.0 Flash 仅达到 **67%** 准确率。

即便不开启智能体视觉,Gemini Robotics-ER 1.6 基础版仪表读取准确率仍可达86%。这是因为模型会通过指向图像中不同元素的方式处理复杂任务,例如计数、识别关键特征。同时,它还具备更强的多视角推理能力,可通过多路摄像头画面更全面理解环境。

谷歌 DeepMind 举例:在杂乱画面中,新版模型可准确识别锤子、剪刀、油漆刷、钳子及各类园艺工具的数量。而旧版 1.5 模型无法准确统计锤子与油漆刷,完全漏掉剪刀,还 “幻觉” 出画面中不存在的独轮车。这说明新版模型幻觉问题显著减少,尽管距离人类级别的环境理解仍有差距。

谷歌称,Gemini Robotics-ER 1.6 是迄今最安全的机器人模型物理安全约束遵从能力大幅提升。它能让机器人遵守安全指令,在处理液体或物料时做出更安全决策,并能更准确判断不同场景下对人体的伤害风险,例如儿童将物品插入电源插座的危险。

未来应用

该模型的实际价值,将在机器人厂商与研究人员的实测中得到验证。目前机器人最高效的场景仍是工厂流水线、仓库等高度标准化、重复执行特定任务的环境。谷歌等公司认为,新一代 AI 模型能让机器人成为更灵活的 “自由巡检员”,在复杂、非结构化的真实环境中工作。但这也意味着一旦出错,机器人造成损坏或人身伤害的风险更高。

至少,这一最新模型让我们向未来又迈近了一步:未来某一天,通用原子国际的 Mark 4 机器人可以扫视房间并准确说出:“这里没有软糖!”


评论


相关推荐

技术专区

关闭