人形机器人技术的进展、实践与挑战
2024 年4 月,由中国机器人网、智能谷产业园主办的“2024 中国人形机器人生态大会”在上海举行。会上,褚君浩院士[1]和孙立宁院士[2]对人形机器人的传感和控制技术做了介绍,随后,浙江大学的熊蓉教授分享了其观察和实践。
本文引用地址:https://www.eepw.com.cn/article/202504/469078.htm本文主要介绍了熊蓉教授多年来的科研成果,包括三部分:①人形机器人的发展背景与意义,②核心关键技术研究进展,③发展趋势与挑战。
熊蓉教授是浙江大学控制科学与工程学院教授、博士生导师,浙江大学智能系统与控制研究所机器人实验室主任。
1 人形机器人的发展背景与意义
人形机器人原来有很多的称呼,过去习惯于称为“仿人机器人”,但是这两年明确定义为是“人形机器人”。
1.1 人形机器人的特点
常规的机器人是模仿人的部分或全部功能和智能;但是人形机器人更强调类人的形态,这种类人的形态使它能够适应人类为自己建造的环境,使用人类为自己设计制作的工具,并且能够有更好的人机交互。所以它具有更强的通用性。这种通用性使它能够无缝地转换人类现在所从事的一些工作,所以它是一个未来的重大的产业。
人形机器人属于专用型的机器人,能力是超越人类的:会有更强的负载,更快的工作的节拍,更高的精度,更强的一致性。
但是现在这种专用的人形机器人还是无法实现的——还需要给它们布置专属的环境,但是未来有望融入到人类生活的方方面面。这种类人的形态可以直接实现与人的无缝替换,所以具有更加广阔的市场。
1.2 市场预测与布局
国内外做了非常乐观的市场预测,例如高盛近期的市场预测乐观度进一步提高了,认为如果能够克服产品设计、用例、技术、成本及广泛公众接受度等障碍,到2035年人形机器人市场规模将达1,520亿美元,与电动汽车市场旗鼓相当。马斯克预测智能人形机器人将超越人类数量,市场规模将达万亿级。
这两年一些国内外的产业界巨头开始布局人形机器人的赛道,从整机到核心零部件,从里面的智能控制器到智能计算等。
总体来看,人形机器人已进入了一个新的突破窗口期:从实验室的样机研发,进入到了产品的样机以及未来产业化发展的早期阶段。
我国也非常重视人形机器人的发展,已经上升为国家战略性新兴技术和产业方向。我国从2022 年就开始了相关的发展论证,2023 年工信部先后出台了揭榜挂帅的项目[3],以及《人形机器人创新发展指导意见》。在今年1 月,工信部等7 部门发布了《关于推动未来产业创新发展的实施意见》里,“创新标志性产品”的第一个就是人形机器人。
2 浙大的研发实践
2.1 人形机器人的关键技术
人形机器人并不是今天才有的系统,早在上个世纪六十年代就推出了第一台双足行走机器人。
人形机器人一直以来都被认为是机器人领域中的一个技术竞争制高点,是国与国之间竞争的科技的显示点。其主要难点在于三方面(如表1)。
表1 人形机器人的主要挑战
首先,它几乎是机器人和人工智能(AI)技术的集大成者,涉及了机器人技术的方方面面,并且整个系统的复杂性也导致了整机系统的研制是一个具有很高挑战性的问题。
除了整机,还需要融合各个部件的功能、性能、材料等,同时也对这些部件提出了高要求,例如关节要求力矩大、速度快、体积小、重量轻、高功率密度等。
第二,这个系统是本质不稳定的系统。例如人有时单脚支撑,如果跑步可能双脚腾空,可见人的足和地面接触的空间和时间有时候非常少,人的稳定控制会发生在这样的一个小空间和时间段里,但对于人形机器人来说,这种稳定控制很难。因此,尽管现在很多机器人实现了稳定的行走,但是不能到一个真实的环境里去适应各种环境的扰动,例如去适应在作业过程中,由于手臂的用力而带来的扰动,同时能够去保证它的稳定性以及作业的准确性。
第三,作为一种通用的形态,它必须能在各种环境里去执行各种任务,这就对它的智能性提出了高要求,这也是AI 领域中的一个重要的发展目标——能够向通用AI 发展。
在工信部的《人形机器人创新发展指导意见》里明确的一个思想是以应用来牵引,然后通过整机来带动整个生态的发展。其中有几个核心,一是包括整机和部件,还有小脑、大脑,以及要去支持其开发的供应链和工具链,由此来形成整个的行业应用和生态建设(如图1)。
图1 对《人形机器人创新发展指导意见》的部分解读图
2.2 研发历程
熊蓉教授团队是从2000年开始进行机器人研究的,关注的是机器人的智能性,包括智能移动和操作。2006年时看到了人形机器人是技术的集大成者和其挑战性,开始了对人形机器人的研发。
2006 年后主要以参加RoboCup 比赛的机器人为平台进行技术积累,包括了机器人的设计制作,涵盖运动控制、平衡控制以及集成了单目视觉来进行实时的定位、规划、各种运动的实时生成。该平台在国际比赛上获得了4 次亚军,在国内获得了多次冠军。
1)打兵乓球机器人
2008—2011 年,熊蓉教授团队在国家863 项目的支持下,研制了两个能够跟人或者是双机器人进行乒乓球对打的人形机器人(图2)。这里除了选择合适的形态及部件集成,更主要的还解决了智能的视图控制。这堪称国际上第一个能够在线动态视图控制快速飞行的球并击打的人形机器人,包括能够基于视觉对球进行准确的检测、定位以及对整条轨迹的预测。其用5 帧的数据来实现小于4 ms 的时间误差和小于1 cm 位置误差的整条轨迹的预测,然后在线做全身的运动规划——这是一个冗余自由度的在线规划,并且去解决在手臂击球的加速度下会造成身体的不稳定,如何进行平衡控制来保持稳定,以及它的准确击球。
图2 打乒乓球的人形机器人
2011 年10 月成果发布后,它得到了国内外的广泛关注。但是该系统还有一些问题尚待解决,例如行走速度和稳定性还有问题——它只能实现1.2 km/h 的行走,并且只能在平整地面上行走;在打球时,因为行走的速度跟不上,主要是站立打球,用下肢来做平衡控制。
2)快速稳定行走的人形机器人
所以从2012 年起,熊蓉教授团队主要研究在室内外能够快速稳定行走的人形机器人,包括能够立位混合控制的关节、腿,以及全身协调的立位混合控制。2022年时,新的人形机器人能够实现在室内外快速稳定地行走,包括适应各种地形。
● 部件/ 关节的研制。涵盖高功率密度的电机,更大减速比的行星减速器,以及做成高集成性的一体化关节。
● 运动建模和控制。目前国际上对人形机器人行走的运动控制有三条技术路线(图3)。一种是从机理出发的,对整机进行运动学和动力学的建模,然后设计其稳定规则,来进行它的规划控制。第二种是像特斯拉所展示的,把人的运动如何直接映射到机器人上面,使它能够产生更加拟人化的动作。第三种是针对机理模型控制,这需要大量的挑战,非常依赖于模型的准确性,对于复杂环境的适应性需要人工的介入——如何去提高它的鲁棒性,而研究强化学习的方法。
熊蓉教授团队在这三个方面都开展了一些工作。
例如,在“强化学习”方面,2020 年时,他们在四足机器人上首先做了一项工作,通过强化学习去生成各种动作,例如生成各种基本步态,然后再把基本步态融合,形成对于陌生环境的适应性,能够自动选择步态的组合。今年年初,他们又把这种方法延伸到了人形机器人上,以实现对不同地面的适应。
图3 行走运动控制的技术路线
在模型学习“人机映射”学习方面,如何把人的复杂动作快速映射到机器人上?最初是把人的手与上肢的动作映射到一台机器人上。
这里主要解决了两点。传统的最优化的映射比较依赖初值(需要人工给较好的初值),而且只能实现一些简单的动作,需要的优化时间较长。他们把最优化和目前火热的深度学习结合后,提出了图形神经网络下的最优化的学习方法,其优势是:①大幅提升了动作的相似性,而且可以保证可执行性和安全性;②最主要的是实现了时间上的大幅提升,能够快速地把人的各种运动映射到机器人上。
3)语义保持
在利用最新AI技术方面,他们利用语言和视觉大模型去进一步提升动作的语义保持。例如让它指胸口,不能映射以后指到脖子或腹部;让它指鼻尖,就必须是鼻尖。所以通过这种跟新的AI 技术的结合,可以实现语义保持,并且能够快速迁移到新的架构上。
4)关节坏了仍能行走
另外,足式机器人不可避免地会有一些关节出现故障。能否让它有一定的自适应性,依然保持一定的作业能力?熊蓉教授团队的成果是:假定在四足机器人上面任意一个关节坏了,给它一个锁定,四足机器人依然能保持直线行走。
5)机器人智能
熊蓉教授团队的工作更多地还是放在了机器人智能上,从2000年开始在这方面去做了大量的工作。
6)总体设计思想
总体思想是:如何从传统的封闭、静态的环境里,走向具有一定未知性和动态开放的环境里,让它能够长期自主鲁棒地工作;以及从依赖人工离线编写的程序,到具有自适应、自学习、自进化、自发育的能力,以逐步适应更加丰富的环境和更加多样化的作业(图4)。
图4 机器人的技术发展目标
在这些方面,熊蓉教授团队也发表了一系列的论文。
7)智能移动技术。
对机器人的长期准确的定位和导航方面做了一些工作,也得到了专家院士的认可,现在一些技术已经在多个领域里有应用验证,例如变电站的巡检机器人,制造业里的新型AMR(自主移动机器人),四足机器人在复杂地形下对人的跟随等。熊蓉教授团队的成果也实现了产业的转化落地,孵化了“迦智科技”去做新型的物流机器人,目前已经在制造业里大规模应用。
8)智能操作技术
开放场景高效行为的决策
* 有参照人的装配工作
自从2012 年完成了打乒乓球的机器人之后,熊蓉教授团队又面向如何能够去操作更多的对象研究。其中一项工作是对于序列性的作业,能否让人能够去展示,然后直接来生成机器人的程序。
即机器人首先对人的动作进行理解,解析出用什么样的动作,操作了什么样的物体,达到了什么样的效果,并且要去解决从感知误差到执行精度要求之间的差距。人类的感知误差往往是毫米级的;而熊蓉教授团队的机器人的执行精度在0.1 毫米级量级。这需要能够实现准确的对未知的推理,然后实现程序的自动生成。熊蓉教授团队实现了不同的动作,例如手电筒的开关,包括机器人关节对人的行为学习以后,用几分钟的时间来生成动作。
* 在开放性的环境里
实际上很难有人的这种参照,需要机器人能够去自主决策。
在这里,当有一个长序列的行为,例如要抓蓝色的木块,但是它有堆叠时抓不到,需要通过推、挪等动作快速地抓到。
再例如很多时候对目标位置是有放置要求的,但是来料往往是随机的,怎样去调整它的中间状态?原来我们都是要依靠人来编程序,把它做一个指定的位置调整,来保证它最后的实现。但在开放场景里,如何让机器人能够自动地生成中间的行为和中间的状态?
从学习的角度来看,最终目标是明确的,但是中间的目标不明确,因此它也很难来得到数据的正确反馈,即正确的数据是稀疏的。熊蓉教授团队在这方面解决了中间的评价器,以及能够去快速学习的问题。进一步地,对于一些开放混杂的场景,需要更多地去适应各种各样的物体,为此,熊蓉教授团队也引入了语言大模型和视觉大模型。
但是大模型是通过大量数据训练形成的,虽然包含了各种各样的物体,但是还有可能检测不了一些物体,也会存在当物体堆叠在一起的时候,检测和定位的准确性可能较低,导致机器人执行的失败。
在此情况下,怎样让机器人通过它的行为逐步收敛到一个正确的结果里?熊蓉教授团队就提出了把语言大模型、视觉大模型和机器人操作的模型去融合学习,实现了在这种混合场景下的操作,最后来完成工作。
通过这样一系列的从强化学习,从语言视觉大模型以及与模仿学习的结合,可以让机器人来完成桌面的整理。初始它可能是非常混杂的,告诉机器人目标要求后,机器人会进行长序列的规划生成,最后来达到指定的要求。
9)伺服控制
与此同时,熊蓉教授团队在机器人的伺服控制里也做了一系列工作。因为传统的方式是先人为编好一个最优化的目标约束,然后去进行伺服的求解控制。但是这种传统方法对于场景变化还是有一定的局限性。而熊蓉教授团队采用学习的方法会发现,它其实也是非常依赖于数据的,如何去让它真正地具有泛化性?为此,熊蓉教授团队提出了一种无模型的方法,能够实现它的端到端的伺服控制,包括能够去适应姿态的变化、背景的变化,以及能够去适应这种场景的传感器(例如在应用的过程中不小心把传感器碰动了——它的外参变化了,在这样的扰动下,它是不是依然能够去适应?),以及如何去让它适应各种场景里的纹理。
● 力控插拔
熊蓉教授团队也做了力控方面的工作,目前实现了一个轴孔配合容差小于0.1 mm 的高精度的插拔,用1 h的训练、通过2 万次测试后达到了99.99% 的成功率。相比之下,DeepMind 用8 h,成功率99.98%。而且它具有泛化性,能够去适应不同的接口,包括光模块、新能源车的充电口以及IT 设备的USB 口等。对于这些复杂的形状,人的操作也要花很多时间,而这种机器人的执行速度能够高于人的速度。
另外,熊蓉教授团队对人形机器人的移动和操作的协作,以及人- 机的协作开展了一系列的研究。
● 手腿协调
今年3 月,在浙江省宁波市政府的支持下,“浙江人形机器人创新中心”正式启动了,也推出了首代产品——领航者1 号,这是在他们前面的基础上进一步做了一些优化改进。同时也更强调赋予它“类人学习”和“操作”能力。
目前行走已完成了在室内平整地面的测试,也会进一步去验证之前在“悟空4”上面所实现的对各种地形的适应。但是这一代会更去强调动作的拟人性,例如能否让它站起来一点儿,不要老是弯着腿。另外,因为设计时没有考虑手会和腿碰触,所以在走路的时候还是把两个手举在那里,来保证它不会产生干扰。所以这些都是下一代产品需要去进一步优化改进的地方。
在前面的基础上,正在思考把熊蓉教授团队的这种机理模型和模仿学习怎么去结合起来,能够快速地实现。他们过去还是做的仿真,现在打通了仿真到实物的这条通路,实现了从人到仿真到实物的回路,以期实现把人的动作快速映射到机器人上面。
另外,现在也正在结合强化学习,让它适应各种场景——在执行各种动作的过程中,依然能够保持平衡控制——这还是属于概念性的,是正在做的研发。
10)倒水添茶和插插头
熊蓉教授团队在前面对于环境物体的检测识别以及行为决策规划基础上,做了一个集成的demo(图5),它能够去倒水添茶,包括人喝完以后它能够自动地检测到,然后完成添茶的工作。人放回去的茶杯也是可以任意放置的,机器人会有算法对物体进行检测以后进行一个精确的定位,然后来进行它的行为的决策和规划控制。
图5 端到端的自动加水
熊蓉教授团队也把前述的对各种动态的适应性做了一个演示,例如机器人可以去抓插头,并插到插座上。
插座可以任意地放置,机器人会实现动态的跟踪。
关于速度,考虑到定位的精确性,整个速度还是比较慢的。下一步将会提高它的节拍,以满足生产上的高节拍要求。
同时,也把作业的能力通过跟持续进化结合起来,从原来的0.1 mm 的精准对接,现在能够实现0.03 mm的对接(USB 的定位精度在0.1 mm 左右)。这也是通过自主学习的方式来实现的。
熊蓉教授团队也研发了一个“灵巧手”,能够实现更快速度的操作,下一步希望能够去提升其鲁棒性。
3 发展趋势与挑战
真正的人形机器人要用到实际的场景里,形成一个产品,还有很多挑战。
作为一个产品,要实现高可靠、高性能、低成本。
1)亟需高性能、高可靠、低成本的核心零部件
整机的可靠性需要进一步提升,成本要降低,这依赖于核心零部件。核心零部件虽然现在很多,但是还有发展空间。例如动力部件的功率密度与人形机器人真正实现灵巧运动还有一定差距。也许力矩、速度足够了,但是体积、重量太大,使人形机器人比较笨重、有一定的威胁感。传感器也一样,如何在小体积下做到高精度和高动态响应,也是面临的问题。
除了产业界在做,学术界也在探索一些新的驱动机理方法,有可能会形成下一代变革性的方法。
2)运动控制
人形机器人要实现各种灵巧的运动作业,运动控制是一个非常重要的基础。
现在已经有了很好的基础,各种技术路线也有突破,能够去展示一定的能力。但是它对作业对象的适应性、环境的适应性还是非常有限的。如何去把机器人、环境、任务融合起来,如何把现在的三条技术路线真正地去打通和推动,也依然是需要探索的。
3)人工智能
目前大模型非常热,但是如果真正把大模型部署到机器人/ 某一环境里,会发现还有很多局限性。例如端茶倒水的,熊蓉教授团队也想到用大模型去做,结果发现放一套茶具上去,有可能检测不出来,哪怕把茶具分开了,也检测不出来。
可见,现在的大模型依然依靠“见过”的数据,有一定的泛化能力,但是距离真正的泛化能力还是有一定的距离。
大模型是人的多元智能里的“基础知识”的一部分,它赋予了语言智能、空间智能、逻辑推理的智能。但是机器人是在一定环境里去工作的,也是现在AI 提的具身智能(图6)。
图6 人的多元智能
实际上,机器人专家一直在做具身智能的研究,让机器人能够去适应各种环境条件,自我监测,人- 机自然友好地交互协作。
之前没有大模型时,机器人专家往往也在把一些AI技术结合进来,人为定义一些知识库、规则等。现在有了大模型,相当于给机器人的专家提供了一个更好的基础模型支持。但是这个模型里还有很多不足,甚至有错误,如何融合到机器人里,实现它真正能够作业的具身智能,也是现在要去研究探索的。
同时,相信具身智能的研究也会反过来去推动大模型,使其更加准确。
参考文献:
[1] 迎九.褚君浩院士:人形机器人的感知发展与探索.EEPW,2024(6):1-5.
[2] “人形机器人”的智能感知与控制技术.EEPW,2024(7):22-25.
[3] 工信部.关于组织开展2023年未来产业创新任务揭榜挂帅申报工作的通知.(2023-9-13).
(本文来源于《EEPW》202408)
评论