"); //-->
李飞飞团队具身智能最新成果来了:
大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。
从此,人类可以很随意地用自然语言给机器人下达指令,如:
打开上面的抽屉,小心花瓶!
大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。
然后重点来了, 真实世界中的机器人在未经“培训”的情况下,就能直接执行这个任务。
新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。
可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。
目前项目主页和论文都已上线,代码即将推出,并且已经引起学术界广泛兴趣。
一位前微软研究员评价到:这项研究走在了人工智能系统最重要和最复杂的前沿。
具体到机器人研究界也有同行表示:给运动规划领域开辟了新世界。
还有本来没看到AI危险性的人,因为这项AI结合机器人的研究而改变看法。
李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单。
首先,给定环境信息(用相机采集RGB-D图像)和我们要执行的自然语言指令。
接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map。
所谓3D Value Map,它是Affordance Map和Constraint Map的总称,既标记了“在哪里行动”,也标记了“如何行动”。
如此一来,再搬出动作规划器,将生成的3D地图作为其目标函数,便能够合成最终要执行的操作轨迹了。
而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。
更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能hold任何给定任务。
在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:
它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。
VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。
而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作,也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。
还是以开头的例子举
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
释说芯语16:硬科技:构建企业未来之路(附PPT)
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
WTC-AI型太阳能热水器电路图
GPU:面临工作负载转变的高吞吐架构
基于Ai-WB2-12F与Rd-04的雷达检测系统
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
基于Microchip MCU的AI/ML培训教程2
CSR8670CSR8675智能语音Alexa蓝牙方案开发
赋能边缘端对话式人工智能
人工智能是如何帮助阻止造假者的?
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
AI竞争进入下半场:从“卷参数”到“卷单价”
iCAN-4017 AI功能模块
尼吉康的事业介绍
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
AI热潮引发多层陶瓷电容MLCC供应短缺
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
电子元件培训教材
继上次海联达Ai-ap100拆机之电源改造
基于Microchip MCU的AI/ML培训教程3
基于VisitionX制造智能眼镜
万家乐JSYZ5-AI燃气热水器电路图
EEPW2018年3月刊(工业物联网)
基于Microchip MCU的AI/ML培训教程1
英伟达CFO:我们早就知道内存大涨价要来了
WTC-AI太阳能热水器电路图
EEPW2018年6月刊(5G)
海联达(Aigale)Ai-HD1 无线全高清套件拆解
AI 驱动估值飙升:光通信半导体企业市值暴涨