专栏中心

EEPW首页 > 专栏 > 李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话,0预训练就能完成复杂指令(2)

李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话,0预训练就能完成复杂指令(2)

发布人:计算机视觉工坊 时间:2023-07-11 来源:工程师 发布文章
图片 将废纸放进蓝色托盘

以下分别是VoxPoser在真实和模拟环境中的表现(衡量指标为平均成功率)

图片

可以看到,无论是哪种环境哪种情况(有无干扰、指令是否可见),它都显著高于基于原语的基线任务。

最后,作者还惊喜地发现,VoxPoser产生了4个“涌现能力”

(1)评估物理特性,比如给定两个质量未知的方块,让机器人使用工具进行物理实验,确定哪个块更重;

(2)行为常识推理,比如在摆餐具的任务中,告诉机器人“我是左撇子”,它就能通过上下文理解其含义;

(3)细粒度校正,比如执行“给茶壶盖上盖子”这种精度要求较高的任务时,我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作;

(4)基于视觉的多步操作,比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但VoxPoser可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求了。

图片

李飞飞:计算机视觉的3颗北极星

大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:

  • 具身智能(Embodied AI)

  • 视觉推理(Visual Reasoning)

  • 场景理解(Scene Understanding)

图片

李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。

正如ImageNet旨在表示广泛且多样化的现实世界图像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。

遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。

最后机器还要做到理解场景中的人,包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了,或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。

机器人结合大模型可能正是解决这些问题的一个途径。

图片

除李飞飞外,参与本次研究的还有清华姚班校友吴佳俊,博士毕业于MIT,现为斯坦福大学助理教授。

图片

论文一作Wenlong Huang现为斯坦福博士生,在谷歌实习期间参与了PaLM-E研究。

图片

论文地址:
https://voxposer.github.io/voxposer.pdf
项目主页:
https://voxposer.github.io/
参考链接:
[1]
https://twitter.com/wenlong_huang/status/1677375515811016704
[1]https://www.amacad.org/publication/searching-computer-vision-north-stars


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: AI

相关推荐

爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运

GPU:面临工作负载转变的高吞吐架构

CSR8670CSR8675智能语音Alexa蓝牙方案开发

资源下载 2017-12-14

尼吉康的事业介绍

视频 2025-07-25

基于Microchip MCU的AI/ML培训教程2

视频 2025-11-12

电子元件培训教材

Nigel AI赋能LabVIEW,NI用AI重塑测试新边界

2026-05-22

EEPW2018年6月刊(5G)

资源下载 2018-06-11

基于Microchip MCU的AI/ML培训教程1

视频 2025-11-12

EEPW2018年3月刊(工业物联网)

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

视频 2025-12-19

研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结

紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电

英伟达CFO:我们早就知道内存大涨价要来了

2026-05-24

基于Microchip MCU的AI/ML培训教程3

视频 2025-11-12

AI 驱动估值飙升:光通信半导体企业市值暴涨

AI热潮引发多层陶瓷电容MLCC供应短缺

AI竞争进入下半场:从“卷参数”到“卷单价”

2026-05-22

赋能边缘端对话式人工智能

更多 培训课堂
更多 焦点
更多 视频

技术专区