承认特斯拉自动驾驶标杆的地位很难吗?
在过去几年的时间里,特斯拉始终引领着自动驾驶技术路线的转变。2021 年,从基于CNN 的机器视觉到基于Transformer 的BEV,2022 年,从BEV 矢量空间到感知粒度更精细的OCC 占位空间,到这里,自动驾驶系统中的感知模块基本完成了端到端,2023 年,特斯拉实现决策规划端到端,并再度转向全链路端到端,每一次,特斯拉都走在了国内友商的前列腺上面。
本文引用地址:https://www.eepw.com.cn/article/202408/462114.htm感性的人不服气,华为、小鹏们为什么要追随特斯拉的技术路线,就不能特立独行一点,走出属于自己的一片天?理性的人在思考,为什么每一次技术路线切换的发起者都是特斯拉,难道马斯克坐着时光机到未来旅行过吗?
图片来源:特斯拉
感性可以帮助人们发泄情绪,理性可以帮助我们更好地认识世界、解决问题,今天,咱们就从理性的角度出发,捋一捋在过去的几年中智能驾驶行业发生的历次技术路线转变及其背后的时间线。
图片来源:吉利
1 相机视图到BEV视图
据说,人类一思考,上帝就发笑,所以,人人都可以事后诸葛亮,却不可能事中拥有上帝视角。人类的世界是这样,机器的世界却未必然也。在诸多传感器加持之下的自动驾驶汽车,虽不能耳听八方,却可以眼观六路,妥妥地具有了上帝视角。
这个上帝视角便是三维空间下的BEV、鸟瞰视图。BEV之前的感知算法依靠深度卷积神经网络完成在各个摄像头的二维图像中进行图像分割、语义识别,然后进行后融合,这种算法很难精确辨别时空交织环境下各个交通参与者之间的关联,难以识别暂时被遮挡的车辆、行人,这就导致了自动驾驶功能横向(设计运行域)和纵向(功能集)扩展上的困难,直到2017 年Transformer大模型的问世,可以在空间上有效地对各个摄像头的多尺度图片特征进行匹配,在时间上对前后帧进行时序上的匹配。才解决了四维(空间三维+ 时间)空间下交通环境的有效感知。
图片来源:特斯拉
至于为何基于Transformer架构的BEV的量产落地被特斯拉抢了先,现在来看,大致有两个方面的原因。
其一,特斯拉率先洞察了Transformer架构的价值。有例为证,据事后披露,当时的OpenAI首席科学家IIya(被马斯克挖来的)在Transformer 架构刚问世就直觉性地意识到了这种模型架构的巨大价值,并开始基于Transformer架构做大语言模型,作为OpenAI 联合创始人的马斯克与OpenAI当时正处于蜜月期。
图片来源:元戎启行
其二, 与CNN 相比,Transformer 大模型非常消耗算力,非普通芯片所能承担。特斯拉2019 年量产的HW3.0算力已经达到了144TOPS,时隔两年后,国内车企依赖的英伟达芯片Xavier的算力还只有30TOPS。大概也正是这么个原因,直到更高算力的Orin在2022年批量供货后,国内车企才最终实现了BEV。
落后的不只是蔚小理这类本土车企,国内的头部智能驾驶方案供应商也是在2022 年走向了BEV前融合的范式。
图片来源:百度风投
当然,落后的还有华为。说起华为,它落后的原因有些令人心酸。要知道,华为MDC平台依靠的车端推理芯片是2018 年推出的晟腾310,单颗FP16 算力只有8TOPS,各个芯片之间依赖现在来看非常落后的PCIe 3.0进行互联,算力比特斯拉落后了整整一个数量级。不过,它能在如此这般落后的算力平台上将BEV 的落地时间缩短到不足一年,说明华为的工程实现能力不是一般地强大。华为之前(现在应该有新芯片了)如何依靠多个单颗算力只有8TOPS 的晟腾310 做出国内领先的自动驾驶系统,至今也是一个迷。
2 BEV矢量空间到OCC占用空间
和基于CNN 的相机视图后融合路线相比,基于Transformer 的BEV 前融合在交通场景(静态的道路结构和动态的交通参与者)的感知上有了巨大的进步,但是,BEV 依靠大量数据训练识别白名单障碍物的能力,在白名单思想的限制下,无法被BEV 有效识别的物体就有可能造成碰撞隐患,而在车辆行驶过程中,优先级最高的任务就是防撞。
图片来源:小鹏汽车
一个显而易见的解决方案是通过立体障碍物的检测识别交通环境中BEV 无法正确感知的通用障碍物,标识出可通行的道路空间,保证自动驾驶中优先级最高的子任务- 防撞- 可以发挥兜底作用。这个障碍物检测在特斯拉那里叫做Occupancy Network 占用网络,在华为那里叫做GOD 网络。和BEV 算法相比,占用网络利用特征向量表达空间中的每一个体素,感知颗粒度更精细,通过空间占位的检测,可以识别白名单障碍物之外的通用障碍物,保证行车的安全。
3 分模块到端到端
现实真的很魔幻,起步太早,容易成为先烈,变成后来者的垫脚石,时机掌握的恰到好处,才能成为先驱。明明是英伟达早在2016 年就开始率先探索转到端技术方案,但是人们却把鲜花和掌声送给了2023 年将端到端自动驾驶方案落地车端的特斯拉。
早在2016 年,头号智驾芯片供应商英伟达就开始研究端到端方案,不过,因为算力不足、数据有限等一系列原因,最终无功而返,于2020 年放弃了在这条技术路线上的探索。所以,在FSD V12 横空出世之前,几乎所有人都认为端到端方案“固然是极好的”,水论文、发Paper、做Demo 都没问题,但要工程落地到可以大规模量产推广的程度,难度实在是太大了。
蜀道难,难于上青天,比上青天更难的是端到端。早在几年前就把一辆Roadster 发射上天的硬核特斯拉,可是从来都不信邪的。是端到端真的不行还是你不行?老马大腿一拍,做一下实验,烧了几亿美金之后,证明了这是一条可以工程落地、具备更高性能天花板、具有更为出色的持续学习能力的技术路线,从此引发了自动驾驶行业这一年来的飞速裂变。
特斯拉并不是“端到端”技术路线的始作俑者,但是,是特斯拉推动着端到端从学术研究进入了工程实现的层面,所以业界普遍认为,自动驾驶算法团队只有两三百人的特斯拉又双叒叕地开启了自动驾驶技术路线的又一次转变。
目前,国内新势力车企基本已经实现了感知层的端到端,目前正在奋力实现(口头上已经实现)决策层的端到端。按照小鹏汽车对XNet、XPlanner、XBrain 的介绍,小鹏汽车的端到端目前停留在分模块阶段。
至于传统车企这边,它们目前的主要发力方向是BEV+ 占用网络,只有将这两者打磨成熟之后,将动态BEV、静态BEV 和通用障碍物占用网络三网合一,才能实现感知层的端到端,之后才是 AI 和编码结合的决策层全面神经网络化,实现决策层的端到端,如此实现分模块的端到端方案之后,才能考虑向全链路端到端的转换。当然,作为下一代技术路线,传统车企肯定也在密切关注端到端的进展。
4 结束语
历数这几年来智能驾驶技术路线的三次转换,BEV思想可以追溯到原本利用相机物理原理通过几何投影将透视图转换成俯视图的传统方法中,占用网络的思想提出时间是2019 年,至于端到端,如前文所述,英伟达早在2016 年就开始了探索。所以,特斯拉并非BEV、OCC、端到端技术路线的原创者,发明家的帽子另有所属,特斯拉断不会张冠李戴。
但是,在现实的工程世界里,并非条条大路通罗马,在过去的几年中,特斯拉确实充当了技术路线的探索者和排头兵,给国内的友商提前探明了好多坑,从这个角度,尊称特斯拉一句行业标杆也不太过分吧。
(本文来源于《EEPW》202408)
评论