专栏中心

EEPW首页 > 专栏 > 李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令（1）

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令（1）

发布人：计算机视觉工坊时间：2023-07-11 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

李飞飞团队具身智能最新成果来了：

大模型接入机器人，把复杂指令转化成具体行动规划，无需额外数据和训练。

从此，人类可以很随意地用自然语言给机器人下达指令，如：

打开上面的抽屉，小心花瓶！

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划。

然后重点来了， 真实世界中的机器人在未经“培训”的情况下，就能直接执行这个任务。

新方法实现了零样本的日常操作任务轨迹合成，也就是机器人从没见过的任务也能一次执行，连给他做个示范都不需要。

可操作的物体也是开放的，不用事先划定范围，开瓶子、按开关、拔充电线都能完成。

目前项目主页和论文都已上线，代码即将推出，并且已经引起学术界广泛兴趣。

一位前微软研究员评价到：这项研究走在了人工智能系统最重要和最复杂的前沿。

具体到机器人研究界也有同行表示：给运动规划领域开辟了新世界。

还有本来没看到AI危险性的人，因为这项AI结合机器人的研究而改变看法。

机器人如何直接听懂人话？

李飞飞团队将该系统命名为VoxPoser，如下图所示，它的原理非常简单。

首先，给定环境信息（用相机采集RGB-D图像）和我们要执行的自然语言指令。

接着，LLM（大语言模型）根据这些内容编写代码，所生成代码与VLM（视觉语言模型）进行交互，指导系统生成相应的操作指示地图，即3D Value Map。

所谓3D Value Map，它是Affordance Map和Constraint Map的总称，既标记了“在哪里行动”，也标记了“如何行动”。

如此一来，再搬出动作规划器，将生成的3D地图作为其目标函数，便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到，相比传统方法需要进行额外的预训练，这个方法用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题。

更进一步，正是由于这个特点，它也实现了零样本能力，只要掌握了以上基本流程，就能hold任何给定任务。

在具体实现中，作者将VoxPoser的思路转化为一个优化问题，即下面这样一个复杂的公式：

它考虑到了人类下达的指令可能范围很大，并且需要上下文理解，于是将指令拆解成很多子任务，比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。

VoxPoser要实现的就是优化每一个子任务，获得一系列机器人轨迹，最终最小化总的工作量和工作时间。

而在用LLM和VLM将语言指令映射为3D地图的过程中，系统考虑到语言可以传达丰富的语义空间，便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作，也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的，那些物体是具有“排斥性”。

还是以开头的例子举

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词： AI

释说芯语16：硬科技：构建企业未来之路（附PPT）

jackwang 2018-10-22

紧凑型集成连接器模块抑制噪声为人工智能应用实现以太网供电

随着联网设备数量爆发式增长，网络设计人员需要不断重新规划边缘节点的数据采集种类、数据传输去向以及最优传输方案，同时，为边缘设备供电也逐渐成为网络设计工作中的重要一环。以太网供电技术（PoE）可同时实现数据传输与设备供电。...

智能计算 PoE 以太网供电差分信号 RJ45 集成连接器 ICM 集成模块 MagJack 电磁噪声抑制 IEEE802.3 标准边缘 AI 工业以太网压接式网口 2026-05-20

WTC-AI型太阳能热水器电路图

设计方案电子电路图，WTC-AI 太阳能热水器电路热水器 2012-07-30

GPU：面临工作负载转变的高吞吐架构

当前 AI 基础设施存在核心架构矛盾：GPU 仍是大规模 AI 训练和推理的主流计算引擎，但前沿大语言模型的计算特性正在发生变化，逐步暴露 GPU 原始设计的固有缺陷。内存墙成为 GPU 效率核心瓶颈内存墙指处理器计算速...

智能计算 GPU架构 AI 负载内存 2026-05-20

基于Ai-WB2-12F与Rd-04的雷达检测系统

设计方案雷达 Ai-WB2-12F Rd-04 2025-08-12

瑞萨电子AI单元解决方案成功提高GE医疗（日本）日野工厂的生产力

winni945 2018-09-12

基于Microchip MCU的AI/ML培训教程2

本视频介绍基于Microchip MCU的人工智能（AI）和边缘机器学习（ML），重点讲解Microchip ML Suite工具，通过简单的AI演示，帮助工程师快速掌握嵌入式人工智能与机器学习技术，实现智能应用落地。...

视频 Microchip eRTC Microchip AI ML MCU 2025-11-12

CSR8670CSR8675智能语音Alexa蓝牙方案开发

BT Command：使用Voice AI，语音助理的蓝牙耳机。 BT CommandTM – Alexa 让你蓝牙耳机蓝牙音箱成为行动智能语音助手...

资源下载 AI 智能语音 2017-12-14

赋能边缘端对话式人工智能

早在 2025 年，语音行业就达成一个共识：语音是最自然的交互方式，这一理念至今依旧适用。语言是人类最早学会的沟通方式，也是日常生活里最顺手的交流途径。但想要实现真正流畅的语音对话，绝不止是把语音转成文字这么简单。恩智浦...

智能计算边缘对话 AI 语音人机交互多模态感知 AFE 注意力前端 UWB 超宽带定位本地语音识别人形机器人交互语音降噪 2026-05-21

人工智能是如何帮助阻止造假者的？

谢丫丫 2018-08-14

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

Our VP of Product Development Roland Saint-Pierre explains why high-voltage PowiGaN technology offers the perf...

视频 pi ai PowiGaN DataCenters 2025-12-19

爱立信携手 Net Feasa 布局海事网络融合公网级通信与智能体 AI 赋能航运

爱立信与Net Feasa达成战略合作，面向全球海事领域推出融合运营商级 4G/5G 通信与智能体 AI的一体化互联方案，率先落地集装箱船舶场景，后续逐步拓展至整个航运行业。双方表示，该系统已在全球范围开展部署，首批应用...

手机与无线通信 5G AI 爱立信 Net Feasa 2026-05-21

AI竞争进入下半场：从“卷参数”到“卷单价”

如果你还沉浸在去年“谁家模型跑分最高”的叙事中，那么今年的谷歌I/O大会可能会让你有些不适应。整场大会最核心的武器，并非某个仅仅存在于演示视频中的AGI（通用人工智能），而是一个定位为“中杯”的模型 —— Gemini ...

AI 谷歌 Gemini GPT Claude 2026-05-22

iCAN-4017 AI功能模块

iCAN-4017 AI功能模块...

资源下载周立功单片机功能模块 iCAN-4017 AI 2007-03-30

尼吉康的事业介绍

尼吉康的事业介绍...

视频 nichicon 尼吉康汽车电子 IoT AI 2025-07-25

研华 COMPUTEX 首度整合全球伙伴大会强化全球边缘 AI 生态系统联结

全球工业物联网厂商研华科技宣布，于 COMPUTEX 2026 期间，首度将研华全球合作伙伴大会（World Partner Conference, WPC）与展览活动深度整合，并以「Edge Computing & A...

智能计算研华 COMPUTEX 边缘 AI 生态系统 2026-05-20

AI热潮引发多层陶瓷电容MLCC供应短缺

人工智能技术的快速发展，正重塑关键元器件的供应格局，多层陶瓷电容（MLCC）尤为突出。48V 供电架构加速普及 —— 相比传统 12V 系统，其可降低功耗、提升板卡设计效率。同时，LLC 谐振转换器等高能效电源拓扑应用日...

元件/连接器 AI 多层陶瓷电容 MLCC 2026-05-20

Nigel AI赋能LabVIEW，NI用AI重塑测试新边界

在 AI 重构科技产业当下，测试测量行业正迎来一次深刻的技术跃迁。在 NI Connect 首日的主题演讲中，NI 高管团队与来自Amentum、NVIDIA等企业的行业专家齐聚一堂，共同探讨了 AI 如何重塑测试的边界...

Nigel AI LabVIEW NI 2026-05-22

电子元件培训教材

电子元件培训教材...

资源下载 NBA 电子元件识别电阻识别电容识别 AI MI SMT DIP 静电防护 2008-09-20

继上次海联达Ai-ap100拆机之电源改造

zhuwei0710 2013-04-03

基于Microchip MCU的AI/ML培训教程3

视频 Microchip eRTC Microchip AI ML MCU 2025-11-12

基于VisitionX制造智能眼镜

设计方案 AI 智能眼镜 VisitionX 2025-08-12

万家乐JSYZ5-AI燃气热水器电路图

设计方案电路图热水器燃气 JSYZ5-AI 万家乐 2013-01-17

EEPW2018年3月刊(工业物联网)

1.TE扎根中国三十年鼎力支持中国创新 2.中国MCU市场观察 3.用于边缘设备的AI为设备制造商营造机会 4.工业物联网技术方案及发展大潮 5.工业物联网带来怎样的机遇和挑战？距离现实有多远？ 6.工业4....

资源下载工业物联网 AI 2018-03-12

基于Microchip MCU的AI/ML培训教程1

视频 Microchip eRTC Microchip AI ML MCU 2025-11-12

英伟达CFO：我们早就知道内存大涨价要来了

英伟达首席财务官科莱特·克雷斯近日在接受采访时表示，当前席卷行业的内存短缺，本可以通过更早下单来规避，并暗指不少竞争对手对价格飙升的预判严重不足。她强调，英伟达很早就意识到高性能 AI 芯片将推高高带宽内存（HBM）和...

英伟达 AI 芯片内存 2026-05-24

WTC-AI太阳能热水器电路图

设计方案 WTC-AI 太阳能热水器电路图 2012-07-24

EEPW2018年6月刊(5G)

1.人工智能芯片市场广阔，需要静下心研发努力 2.2017中国半导体市场回顾及2018发展展望 3.5G技术及测试测量的挑战 4.ARM服务器芯片的挑战与应对策略探索 5.国产芯片的关键一步：华芯通首款芯片年底量...

资源下载 5G AI 2018-06-11

海联达（Aigale）Ai-HD1 无线全高清套件拆解

zhuwei0710 2013-04-28

AI 驱动估值飙升：光通信半导体企业市值暴涨

人工智能热潮推动数据中心建设浪潮，带动光通信产业链企业股价飙升，部分公司年度涨幅创下历史纪录。一、行业涨幅创纪录自 2006 年首次发布以来，《化合物半导体》年度股价排行榜（统计周期为前一年 4 月底至当年 4 月底）多...

网络与存储 AI 估值光通信半导体 2026-05-25

更多 培训课堂

更多焦点

更多视频

专栏中心

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令（1）

相关推荐

释说芯语16：硬科技：构建企业未来之路（附PPT）

紧凑型集成连接器模块抑制噪声为人工智能应用实现以太网供电

WTC-AI型太阳能热水器电路图

GPU：面临工作负载转变的高吞吐架构

基于Ai-WB2-12F与Rd-04的雷达检测系统

瑞萨电子AI单元解决方案成功提高GE医疗（日本）日野工厂的生产力

基于Microchip MCU的AI/ML培训教程2

CSR8670CSR8675智能语音Alexa蓝牙方案开发

赋能边缘端对话式人工智能

人工智能是如何帮助阻止造假者的？

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

爱立信携手 Net Feasa 布局海事网络融合公网级通信与智能体 AI 赋能航运

AI竞争进入下半场：从“卷参数”到“卷单价”

iCAN-4017 AI功能模块

尼吉康的事业介绍

研华 COMPUTEX 首度整合全球伙伴大会强化全球边缘 AI 生态系统联结

AI热潮引发多层陶瓷电容MLCC供应短缺

Nigel AI赋能LabVIEW，NI用AI重塑测试新边界

电子元件培训教材

继上次海联达Ai-ap100拆机之电源改造

基于Microchip MCU的AI/ML培训教程3

基于VisitionX制造智能眼镜

万家乐JSYZ5-AI燃气热水器电路图

EEPW2018年3月刊(工业物联网)

基于Microchip MCU的AI/ML培训教程1

英伟达CFO：我们早就知道内存大涨价要来了

WTC-AI太阳能热水器电路图

EEPW2018年6月刊(5G)

海联达（Aigale）Ai-HD1 无线全高清套件拆解

AI 驱动估值飙升：光通信半导体企业市值暴涨

技术专区