波士顿动力机器狗借助谷歌 Gemini AI，现已能读取仪表与温度计

—— 谷歌 AI 让机器人在工业巡检中具备仪表读取能力

作者：时间：2026-04-16 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

波士顿动力的四足机器人 Spot，如今可在工厂、仓库等场景精准读取模拟式温度计、压力表等设备。这一能力升级来自谷歌 DeepMind 最新的机器人 AI 模型，旨在提升机器人与物理环境交互时的具身推理能力。

谷歌 DeepMind 在 4 月 14 日发布的全新模型Gemini Robotics-ER 1.6，被定位为 “机器人高级推理模型”，可自主规划并执行任务。该模型让机器人能精准读取复杂仪表、通过视镜观察罐体与管道内部，实现视觉巡检能力大幅提升。这一突破是谷歌 DeepMind 与波士顿动力长期合作的成果。

波士顿动力正积极在各类工业场景测试四足与人形机器人，包括其母公司现代汽车集团的汽车工厂。该公司的机器狗 Spot 已在试点中担任巡检员，在厂区内自主巡查各类设备。这类巡检任务需要复杂视觉推理，以识别仪表的多指针、液位、刻度、边界与文字信息。

核心驱动模型

Gemini Robotics-ER 1.6 为机器人提供了智能体视觉（agentic vision），将视觉推理与代码执行能力结合，生成 “视觉草稿本” 用于图像检测与处理。该能力最早在 2026 年 1 月的谷歌 Gemini 3.0 Flash 中推出。

据公布数据，智能体视觉让机器人仪表读取任务的准确率从旧版Gemini Robotics-ER 1.5的23%，大幅提升至新版1.6的98%。作为对比，Gemini 3.0 Flash 仅达到 **67%** 准确率。

即便不开启智能体视觉，Gemini Robotics-ER 1.6 基础版仪表读取准确率仍可达86%。这是因为模型会通过指向图像中不同元素的方式处理复杂任务，例如计数、识别关键特征。同时，它还具备更强的多视角推理能力，可通过多路摄像头画面更全面理解环境。

谷歌 DeepMind 举例：在杂乱画面中，新版模型可准确识别锤子、剪刀、油漆刷、钳子及各类园艺工具的数量。而旧版 1.5 模型无法准确统计锤子与油漆刷，完全漏掉剪刀，还 “幻觉” 出画面中不存在的独轮车。这说明新版模型幻觉问题显著减少，尽管距离人类级别的环境理解仍有差距。

谷歌称，Gemini Robotics-ER 1.6 是迄今最安全的机器人模型，物理安全约束遵从能力大幅提升。它能让机器人遵守安全指令，在处理液体或物料时做出更安全决策，并能更准确判断不同场景下对人体的伤害风险，例如儿童将物品插入电源插座的危险。

未来应用

该模型的实际价值，将在机器人厂商与研究人员的实测中得到验证。目前机器人最高效的场景仍是工厂流水线、仓库等高度标准化、重复执行特定任务的环境。谷歌等公司认为，新一代 AI 模型能让机器人成为更灵活的 “自由巡检员”，在复杂、非结构化的真实环境中工作。但这也意味着一旦出错，机器人造成损坏或人身伤害的风险更高。

至少，这一最新模型让我们向未来又迈近了一步：未来某一天，通用原子国际的 Mark 4 机器人可以扫视房间并准确说出：“这里没有软糖！”