人形机器人/具身智能机器人有哪些应用挑战?
2025年4月,在上海举行的“2025中国人形机器人生态大会”上,有一场圆桌论坛——人形机器人与具身智能产业机遇与挑战,主持人是上海交通大学自动化与感知学院、医疗机器人研究院的陈卫东教授,他与四位来自整机与零部件企业的领导与专家展开对话,探讨了人形机器人/ 具身智能的技术现状、三五年内的应用领域及未来展望。
图 从左往右:上海交大的陈卫东教授,优艾智合-西安交大的关键主任,新时达副总裁兼董秘刘菁,开普勒中国区业务负责人张梅魁,卓誉科技副总经理李鸿飞
1 从“人形机器人马拉松”看到了什么
2025年4月北京举办了“人形机器人半程马拉松赛”,专业人士和公众对此褒贬不一:有人觉得表现不错,有的认为没有想象的那么好。从业人员如何看待这次机器人的表现?
1.1 是伪装成体育比赛的“人形机单一运动性能的公开测试”
优艾智合- 西安交大具身智能机器人研究院运营中心主任关键指出要客观看待人形机器人的发展。Gartner有个著名的新技术诞生曲线,横轴是时间,纵轴是市场对新技术的期望值(如下图)。由图可见,期望值是一条非常奇怪的曲线,在一开始迅速拉升到一个高点,然后急速下落接近冰点,然后再慢慢地回升,以对数曲线的方式慢慢趋近于一个合理值。
图 Gartner技术成熟度曲线
从大众的视角来看,此次人形机马拉松拉高了公众的期望值,但从业内角度看,实际上是一场伪装成体育比赛的人形机器人单一运动性能的极限压力公开测试。
因为在跑马拉松的直播上,弹幕上有一个问题很显眼:人形机器人就是用来跑马拉松的吗?这个问题可谓人间清醒。实际上,我们在设计人形机器人的时候,并没有针对马拉松这个场景应用开发。因此,直接因为机器人需要冷却液而去否定人形机器人当前电机技术的成熟度是有失偏颇的。
更深层的一个问题是:当前人形机器人到底是为什么应用场景开发的?这是业内人士需要思考的。跑马拉松一方面让更多人关注到了人形机器人,也让大家对于当前的技术发展有了相对客观和理性的认识,这是有非常正向意义的。但是负向的影响,确实有很多人因为一些片面与误导的信息,对人形机器人行业产生了负面判断。
因此希望从业者能够客观冷静地看待这件事,不能因为需要冷却液而否定机器人的关节质量,因为如果让我们人类连着跑21公里,可能需要的不只是冷却液了。
所以不能因为这一个点而否定人形机器人行业整体发展的成果。
1.2 人形机的潜力巨大
现在人形机也许不被公众看好,但是未来有巨大的发展潜力。例如当年火车、汽车发明出来时都与马车赛跑过。
新时达副总裁兼董秘刘菁分析认为,任何一个产业在刚开始的时候都会遇到这样或那样的问题。例如在零部件层面,有散热、功耗、续航等问题;从整机层面的整合,有上下肢的技术路线、操作的泛化等问题;大模型有端到端的问题。
人形机器人的整个体系依赖于生态系统的构建。从政策层面已有很多政策陆续出台。实际上,我们需要靠政策把资源引入这个行业,人才来了,什么样的难事都有机会去解决。
1.3 凸显三个问题
卓誉科技属于零部件企业,副总经理李鸿飞称,人形机器人、具身智能这轮发展很快,特别是有了AI 大模型加持以后,使得从原来的指令式执行,提升到了半自主的智能化执行,可谓有了质的跨越。但是目前还有三个问题亟待突破。
第一,技术还需进一步突破。目前业界提得最多的话题是要去找场景,实际上场景很多,例如从工业到居家,需求非常旺盛。缺的是什么?是能够满足应用的技术。
第二,稳定性。这次马拉松上的机器人还不够稳定。想象一下,不管是在工厂还是家里,如果以后机器人批量去使用时,要两三个小时就去关注一下它是否倒了,是否把物料摔到别的地方了?另外,有的机器人要喷降温剂,以防止驱动器、电机等部件过热,说明零部件做得还不够专业。
第三,整机成本贵。从今年春晚机器人跳舞以后,人形机就火起来了,很多企业和个人愿意去尝试,但是有点承受不了价格。
1.4 需要出台更多的“标准”
开普勒中国区业务负责人张梅魁提到标准的重要性。因为标准出来以后才容易去做降本,例如定义旋转关节的标准、行星滚轴丝杠的标准。
标准怎么去定义?要从场景倒推。当然标准要针对不同的维度/ 场景去定义,这需要所有关注这个行业的人一起去努力解决。
2 机器人一定要像人吗?
主持人——上海交通大学自动化与感知学院、医疗机器人研究院的陈卫东教授提出了是否一定要像人形的问题。他解释道,从人形机器人开发的角度来看,是想做一个更加通用的产品,相对于传统的机械臂、手。这种更加通用的机器不仅能参加单项的比赛,可能能做更多,例如十项全能——各种工业场景、家用场景、专业场景(诸如探险、科考)等。那么,机器人一定要像人吗?陈卫东教授也是从事机器人研发的,做过双足机器人、人形机器人等,也做过机械手、机械臂,甚至还做过完全不像人的蛇形机器人。
那么,人形机器人一定是这种有手、双臂、头、两条腿这样的结构吗?
2.1 绝大多数机器人不是类人形
优艾智合- 西安交大的关键主任称,机器人的门类一定不只是人形,甚至未来绝大多数机器人不是类人形,但是也一定会有类人形机器人的空间。
为什么人类长成现在这个模样?并不是我们人类主观选择的,而是自然进化成这个样子的。同样,机器人/人造工业品的形象也是我们选择的结果。因此根据需要,我们可以让机器人长出2 只胳膊、4 只胳膊,有时是一只手,有时可能是5 只眼睛,甚至浑身是眼……,究竟是什么硬件形态是我们人为定义的。而定义出的形态与自然选择学说很像——最能适应环境的形态就是最优的,即适者生存。
机器人的工作环境五花八门,甚至天差地别。在这些环境中,最终的进化结果是完全一致的——这是一个不太理性的结论。相反,它会演化成五花八门的样子,才是更为合理的。
如果基于机器人与人的本质区别,它不具备人格,没有人权,不需要拥有自己的生活,7×24 小时的生产力全部贡献在一个固定场景中……如果是这样的定义,也许其他形状比人形更优。例如有时更灵巧,有时更有力,有时精度更准,有时感知更宽泛,使用更丝滑……在这些场景下,由一个共性/ 同构的大脑控制着n 种形态的机器人,分别在不同的细分场景里不断向一个更合适的、适配未来生产力水平的方向去不断进化形态,而不是固定的——像人类一样,可能更为合适。
2.2 机器人的终局一定是人形
新时达副总裁兼董秘刘菁指出,人形机器人是一种泛泛的叫法,如果抠字眼,人形应该是具身智能或智能体的一个分支,或者叫“机器人+”。
2.2.1 应用选择的结果
但是无论什么样的名称,实际上,任何一个产业在刚开始时,理论上都应该是百花齐放的。就像PC 被发明出来时也不是今天的形态,但在发展过程中不断被统一共识,不断地提升性价比,最终所有人都认为某种形态架构是性价比最高的,因此人们都选择这种形态。
所以在接下来的时间里,人形也好,具身也罢,应该呈现百花齐放的状态。理论上应该是大脑和运动机构的排列组合,但也有阉割版、肢解版的机器人。这种状态会持续一段时间。
但是终局一定是人形,因为仿造人的状态可以兼容所有的工作场景。“兼容”代表着相对标准化。标准化代表着有一定的冗余。当冗余出现的时候,从性价比的角度来分析,冗余能否靠量的优势去弥补成本的差异?这成为是否是标准版的关键。
现在人形机器人为什么会跨越中间百花齐放的形态,直接进入到人的形态?主要原因是普遍认知上,人形可以兼容所有场景,已做了中间的各种跨越。当然,人的形态到后面也会分化,也许不一定需要1.6 米的,可能需要1 米、0.5 米、2 米等,也可能是阉割版、肢解版的,甚至只需要把大脑放在桌子上。
最终,人形机器人产业会与AI 同步迭代融合。在物理世界里,机器人是AI 在物理世界最大的一个载体,因此未来AI 以什么样的进展去迭代,机器人就会以什么样的进展去同步呈现。
2.2.2 平替的成本最低
开普勒中国区业务负责人张梅魁指出,从短期落地的产业角度来看,机器人会有很多种形态,但人形是终极形态。因为人形是物理属性与平替属性的一个最大的交汇点。平替是最低廉的成本。
2.2.3 大模型的影响与“奥卡姆剃刀原则”
卓誉科技副总经理李鸿飞称,机器人一开始的应用场景很多,不管是轮式还是人形,甚至卓誉还跟客户讨论过做三头六臂的。但是最终会收敛到人形。他补充了两个原因。
首先来自于大模型。大模型教会人形机器人最重要的一件事是去感知和认识这个世界。能感知和认识这个世界的时候,机器人才有自主的判断。机器人去感知就像我们去教育一个小孩:让机器人去训练的时候,我们所喂给它的所有数据来自于我们这个物理世界。我们真实的物理世界是以基于我们人的视野或者身高去构建的,你教它什么,它就像什么。你喂给它的数据是来源于人的视角的,所以它最终大概率会以人的思维或者人的视角去做。
其次是奥卡姆剃刀原则。根据奥卡姆剃刀原则,所有事情越简单越好。如果一个形态能解决这个问题,这个世界上就不会再出现5 个、10 个形态。
3 三五年内的应用场景
3.1 工业和消费的某些垂直市场
开普勒中国区业务负责人张梅魁称,可能在3 年之内,在B 端与C 端里能发现一些以点带面的场景。
● B端
业内做机器人/ 人形的时候,有一句话叫“先工业再消费”,就是先2B 再2C。B 端工业产品的一个最大好处是工业产品比较聚焦专一的场景,像自动驾驶最开始一样,是在封闭场景的应用。但是工业又有工业的特性,需要考虑方方面面。常言道:工业是很难伺候的,既要、也要、还要。不是你与客户关系好,客户就能买100 台,一定是你的机器人能够满足客户的需求底线,还要有很长的验证期。
今天可能没有哪一家机器人公司敢确认:已把机器人本体“交付”给某一个工业客户,因为“交付”和POC(概念验证)是两个不同的含义。所以如果按照3年规划,工业有可能在单点市场(而非泛化市场)去做突破。
关于工业端的特点,卓誉科技的李鸿飞副总补充道,工厂/ 工业系统最大的特点是容错率极低——不允许犯错,这对机器人是比较致命的问题。但是工业端有非常多的应用场景,而且买单的意愿及市场容量较大,所以工业端是机器人落地的重要场景。
这个场景有什么特征?①有一定的错误容忍力;②任务单一——在重复地工作。从大脑端来看,人形机器人已经从幼儿园毕业,进入小学阶段了。可以想象一下,如果安排一个八九岁的小朋友工作,在什么场景下允许他犯错?可能是让他重复地做一个工作。这应该是工业端会出来的第一个场景。
● C端
开普勒中国区业务负责人张梅魁称,也许某家本体企业能够找到一个C端的场景,但这个场景会跟上述的B端一样,可能是某一个局限的垂直领域,而不是泛化的场景。
总之,今天硬件和软件的迭代速度会超过传统的想法与定义,所以如果仍用以前的思维(例如5~10 年为一个跨度)可能对于人形机器人市场有点保守。今天人形机器人的发展一定要激进,要做拓荒的事情。
3.2 从AGV延申出三大市场
优艾智合- 西安交大的关键主任从移动机器人的发展历程预判未来的三种可能形态。
回顾8~10年前,当AGV(自动导引车)问世时,与今天的人形机器人所面对的市场环境非常相似。那时的AGV是激光导航的,绝大多数企业的第一个订单也是来自于教育和科研机构,作为教学和科研用具,这对于企业是一个较好的起步点,能有一些现金回流。
之后,AGV 机器人分化出了三类应用。
● 走入家庭。例如家用扫地机,这是典型的2C 场景,追求的是低成本和高产量,而且是标准化的路线。
● 沿着工业制造(即传统的磁条导航机器人)的方向去迭代,经历了几个阶段。但工业并不如想象的那么简单,一个核心矛盾是现在九成制造型企业的毛利不高,因此对于新产品迭代的采购预算要经过精确的ROI(投资回报率)核算。如果我们所设计的机器人的定义是取代传统人工,能否在价值金字塔上进阶?就需要用人工的工资成本来比对机器人的ROI。例如上海或深圳周边的人工,一线普通操作工的平均工资低于五六千水准,对于一些企业,一台机器人的ROI 需要在12 个月~ 3年内收回成本。假设12个月,工人的工资算得更高——1万元,就是12×1万=12万,即12万元售价(不含其他的隐形成本)。这个价格与一个工业人形机的售价相比,可见人形机是非常艰难的,这就面临着一个死循环——没有量就没有低成本,没有低成本就没有量。所以如果要在工业落地,一定率先是在一些高附加值、高生产工艺要求、高挑战性的工业场景率先落地。之后,随着它的良性滚动,把负向循环慢慢逆转成正向循环,使成本降低,批量变大,然后下沉到更多市场,形成工业里的广泛应用。
● 商用市场。2B2C 场景也是人们在生活中频繁见到的,诸如酒店送餐、送快递、送外卖的机器人,以及商用的清扫机器人,已经形成了各自独立的细分市场,每个市场也都有一定的空间容量。这是介于家用和工业场景之间的一种业务形态,有可能成为一个完全独立的板块。
因此,这种三种类型的分法,不同于普遍认为的先是教育科研,然后走向工业(B 端),最后走向C 端。而是有可能在第一步——教育和科研完成之后,会分化出来三个类别——工业端、商业端和消费端,可能会齐头并进。
究竟哪一个会率先落地?实际上只有节奏的差异,很难用未来的市场占有率来核算这个时间节奏,更多的可能是工业率先打响第一枪;但是如果在C 端能够找准定位,可能会第一个成长出一家巨头企业;而在介于两者之间的商用领域,可能会形成某一种平衡态的产品。
3.3 具身智能已有大量应用
优艾智合- 西安交大的关键主任接着说,如果把人形机器人的概念范围放宽,变成具身智能技术,今天已经在创造社会价值。例如把人形机器人中的一部分能力去赋能智能系统,可使生产力进一步提升。这也是一条相对连续的演进路径。这样人们就不用站在迷茫的十字路口,去努力寻找下一个方向了,而是已有一条路了。举两个例子。一个是该公司已把具身智能机器人的多模态感知系统平移到工业巡检机器人上,降低了80%的交付成本。如果放大到全年,足够平衡投入的研究经费。另一案例是:如果把这种泛化的大模型算法用在大规模机器人集群的调度算法上,可极大提高机器人在场内调度的运行效率,这也提升了整体机器人的生产力水平。
3.4 围绕痛点,技术迭代是驱动力
两家零部件企业——新时达和卓誉的领导谈了他们的看法。
新时达的刘菁副总换了个角度,认为不论2B 还是2C,都是以痛点的把握作为落地核心的,她以该公司的转型为例说明。
● 围绕痛点
新时达原来是工业机器人厂家,现在涉足具身智能、人形机器人领域。因为无论是2B 还是2C 市场,到底在哪里开花结果就是一个关键词——痛点,对于痛点是怎么来把握的。
例如新时达过去与客户沟通的时候,会发现现有的产品没法满足客户2B 场景的需求,客户可能需要更复杂的、更综合的能力,这时痛点就自然而然地出现了。
所以在接下来的落地过程中,关于大脑和运动机构的排列组合问题,什么形态才能解决当前的痛点?就会排列组合成什么形态。同时在软件端可能会出现工艺包和软件包的百花齐放,即在硬件的层面尽量模块化,在软件层面尽量差异化,这样依然在下游分2B 和2C 两个场景。
如果从下游的角度看,2B 的场景就是寻找当前工业机器人解决不了的痛点。什么样的形态能够解决当前的痛点,就是现在的产品定位,这可能会相对更快一些。
2C方面,单一、相对封闭、大量、重复性的场景会优先突破。这时机器人不需要特别聪明,甚至还很笨,依然可以解决很多痛点。
● 技术迭代达到某一节点同时随着AI不断进步,机器人也在不断地学习迭代,当技术达到某一节点,就会打开一个新局面。就像打游戏时,打着打着一大片区域就亮了。再例如微信为什么很成功?是因为智能手机的进步。智能手机怎么火起来的?因为苹果手机的出现。苹果手机怎么火了?因为移动通信技术的进步使智能手机成为可能。其实在微信(注:2011 年诞生)之前还有飞信(注:中国移动2007 年推出),运气就没有这么好。
所以新应用场景的涌现依赖于技术的迭代。技术迭代到一定程度,原来需要很高成本、很复杂的应用现在阻力被攻破了,就会不断点亮各种板块,而且这种状态会成为一种常态。
3.5 在专业性和通用性之间找平衡
上海交通大学的陈卫东教授总结道,未来三五年,一个是多场景的齐头并进;另外是解决痛点——把目前人力做不好或不愿意做的工作,去让机器人替代。
陈卫东教授谈了他的观点,认为机器人的发展,一直是在专业性和通用性之间寻找一个平衡。工业机器人公司最早诞生的公司是Unimation,是universal与automation的组合词,是上世纪五六十年代在美国成立的,名称含义是:万能的自动化,功能模拟人类的手臂,可见希望机器人的应用是通用的。
经过70年的发展,机器人在工业上的应用仍然在寻找通用和专用的平衡。例如每家公司都有一系列的型号,从几公斤到几十公斤甚至几百公斤。再例如手术机器人/ 达芬奇机器人一开始追求的是通用,例如做大腹腔/ 胸腔的手术,但是这几年又出现了很多专科手术机器人。
所以通用和专用机器人的发展目前还是齐头并进的态势。为了降低成本,希望能出现通用的、标准化的,这样从零部件端可把成本降下来,以加快产品的普及;而专用在特定的垂直领域有较高的效率。
4 未来展望
人形机器人在近两三年呈爆发式增长,给人们带来了非常多的期待和想象力。未来已来,企业家们对于人形机器人/ 具身智能的发展有哪些思考和建议?
● 让GDP跑赢人口增速
优艾智合- 西安交大的关键主任指出:人形机器人已出现了一百余年——1921年捷克剧作家卡佩克(Capek)第一次构想出了人形机器人。在这一百多年中,全球人口呈线性增长(笔者注:增长近4 倍),但全球GDP 是以指数型/ 爆炸式的增长(笔者注:增长约13.7 倍)。因此,我们现在所面对的时代是一个生产关系已经发生了巨变的时代,是平均劳动力所贡献的GDP 每年呈爆炸式增长的年代。因此我们能够期望的就是通过像机器人这样的技术产品来帮助GDP 继续跑赢人口增长。
● 具身机器人将成为第三大下游终端新时达刘菁副总称:制造业有周期性,现在主要由两个下游的最巨大的产品或行业叠加起来:① 3C,首先跟终端消费品——手机有关;其次是泛3C,包括PC等各种电子产品;②与泛汽车有关。有趣的是,这两大产业的供应链和供应商正在融合。“人形机器人”或者刘菁副总更愿意称之为“具身机器人”,未来可能会成为第三个大的下游终端。有意思的是,所有做3C 和汽车的厂家及其供应链,也正在向智能体/ 机器人融合。所以机器人/ 人形机器人/ 具身智能机器人/ 智能体未来一定是一个非常广阔的、甚至是万亿级的市场,会成为AI在物理领域最大的载体。
● 需要全产业链合作
开普勒中国区业务负责人张梅魁:人形机器人是一个未来无限量的行业,可谓仰望星空。但是今天,人们首先需要脚踏实地,还要不破不立,要创新、创造出更多的技术产品去支撑未来的星辰大海。但这不是一家企业或者几家企业就可以实现的,需要所有上中下游的单位组织一起去承载这个行业的发展。
卓誉科技副总经理李鸿飞接着说:希望产业链上下游一起努力,让机器人走进现实,帮助我们去做很多事情,让我们人类能放下来繁琐的劳动,去实现最初的心中梦想。
(本文来源于《EEPW》202506)
评论