新闻中心

EEPW首页 > 汽车电子 > 设计应用 > ICCV会议,揭开了特斯拉FSD架构的秘密(2)

ICCV会议,揭开了特斯拉FSD架构的秘密(2)

作者: 时间:2025-12-26 来源:EEPW 收藏

作为自动驾驶行业的行业标杆和技术路线的引领者,特斯拉曾经在2021-2023年之间召开过两次技术细节满满的AI Day,做过两次CVPR会议的分享,向世人全面揭示了基于Transformer的BEV、纯视觉占用网络OCC、基于神经辐射场NeRF 的三维重建技术,后来,或许是因为发展速度趋缓,或者如马斯克所言的为了避免“友商逐帧学习”,特斯拉不再对外公开FSD的技术方法论了。时隔两年多之久,特斯拉AI副总裁、自动驾驶负责人Ashok在今年的ICCV上做了一次精彩的分享。作为自动驾驶行业今年最重要的技术分享之一,特斯拉在I这次演讲引发了一些误读和谣传。有人(或许是理想汽车的利益相关者)认为FSD 采用了理想汽车已经抛弃的双系统方案,也有人(或许是小鹏汽车的利益相关者)认为FSD 采用了小鹏力主的VLA 方案,那么,事情的真相到底是什么样子?特斯拉FSD 到底采用了什么样的架构呢?

1   不是双系统方案

在自动驾驶的发展过程中,涌现出了不少容易被搞混的概念,其中之一便是双系统这个理念。追根溯源,双系统的说法来自2002年诺贝尔经济学奖获得者、心理学家丹尼尔· 卡尼曼 2011年出版的《思考,快与慢》。在这本书里,卡尼曼将大脑划分为快思考系统1和慢思考系统2。

1766735049976942.png

图片来源:Momenta

系统1采用自动、无意识、直觉式的运行模式,处理着我们日常生活中绝大部分决策,系统2 采用受控、有意识、分析式的运行模式,用于承接系统1 无法解决的难题。经过十几年的推广,双系统的概念日益深入人心。2018 年以来,随着可内嵌因果关系的Transformer架构的出现,生成式AI 系统都或多或少地同时拥有了面向简单场景的直觉能力和面向复杂场景的推理能力。

1766735066676573.png

图片来源:百度

从对这个概念的宣传时间线来看,2023 年,地平线于国内首个提出了基于双系统概念的智能驾驶系统方案,进入2024 年,百度、理想汽车、Momenta 相继在不同的场合对双系统展开了宣传。最有钱的理想汽车嗓门最大,自然而然地拿下了“行业首个”双系统方案的桂冠。

1766735094373958.png

图片来源:地平线

从“内容”的角度来看,生成式AI 系统都同时具备基于直觉、快速响应的系统1 和基于推理、提供高层次认知的系统2,但从“形式”的角度来看,生成式AI系统不一定要像理想汽车那样通过两个神经网络实现。

1766735114678230.png

图片来源:理想汽车

特斯拉这次演讲中出现的系统2,显然没有采用理想汽车的“形式双系统”方案。因为,经过反复的训练,系统2 的复杂技能可以转化为系统1 的直觉反应,将深思熟虑的技能变为电光火石间的本能,系统1 和系统2 完全可以存在于同一个神经网络里,而且,从形式上看,FSD 是单个而非两个大神经网络。所以,别再拿特斯拉给理想汽车的双系统方案背书了!

2   不是VLA方案

城头变幻大王旗,自动驾驶行业每年都有热议的话题。细数下来,21年的话题是前融合和基于Transformer的BEV,22年的热议是占用网络OCC和NOA进城,23年引发广泛讨论的是融合激光信息的OCC、纯视觉OCC、基于无图NOA 的开城大战,24年的热点是两段式端到端、一段式端到端和双系统方案,到了25年,流量几乎都给了理想、小鹏、小米、元戎启行这些新势力主导的VLA 方案。

1766735214121789.png

图片来源:理想汽车

小鹏、理想们力挺视觉语言动作模型VLA,根本原因在于VLA的核心- 大语言模型具有强大的泛化能力和推理能力,从而赋予了VLA方案相较于传统端到端方案更加强大的场景理解能力。也就是说,内嵌语言智能的大语言模型是VLA的核心,正是借助大语言模型的通用泛化能力,小鹏VLA和理想VLA才大幅度提升了对复杂场景的语义理解能力。

1766735145449901.png

图片来源:小鹏汽车

但是,这并不意味着加入了语言智能,系统就采用了VLA模型的架构。这个道理就跟从智能的角度来看,现有头部自动驾驶系统都是双系统,但同样具备系统1快速响应能力和系统2复杂推理能力的很多方案都没有采用理想汽车那种形式双系统方案是一样的。事实上,理想VLA不也是把系统1和系统2集成进一个系统里了吗?

1766735153878903.png

图片来源:理想汽车

特斯拉FSD引入语言智能,主要目的是增强FSD这个黑盒系统的可解释性。也就是说,特斯拉FSD中的语言智能是给人看的,一方面用于提升用户对自动驾驶系统的信任感,一方面可以作为中间结果,供开发人员检查缺陷,VLA中的语言智能除了给人看,更多是用来生成动作token ,直接指导车辆的运动控制。

1766735256371061.png

图片来源:特斯拉

可以认为,FSD端到端神经网络中有一个小推理模型,专门用于以自然语言的形式展示对场景的理解和决策的机制,从作用上看,它更像是一个VLM。所以,也别拿特斯拉给VLA路线背书了。

是世界模型吗?

人生如同打地鼠,每解决一个旧问题就会冒出一个新问题。解决了车端FSD推理模型既不是双系统也不是VLA的老问题,马上跳出来的新问题就是,FSD使用的是世界模型吗?

特斯拉AI副总裁、自动驾驶负责人阿肖克明确指出,特斯拉的世界模拟器用于在云端提供模型测试验证和强化学习的环境。它跟驾驶智能体或驾驶模型连接起来,形成评估其性能的闭环。

1766735257476591.png

图片来源:特斯拉

从技术原理上看,特斯拉世界模拟器和蔚来汽车云端世界模型采用了同样的方案,即根据当前状态和下一步的动作,预测生成未来的状态。从概念上看,世界模拟器根据下一步动作预测未来状态,进行的是“当前状态+ 动作- > 未来状态”的物理推演,而车端推理模型做的事情正相反,是根据当前状态预测下一步的动作,进行的“当前状态-> 动作”的预测。

1766735289292179.png

图片来源:特斯拉

不过,蔚来明确指出,其车端推理模型同样采用世界模型,通过推演不同动作下的状态,并对在不同自车动作轨迹下的场景进行排序,选出最优的路径最优解。可以通过选择行驶轨迹,也就是说,它进行的“当前状态-> 动作”的预测形成了“当前状态+ 潜在动作-> 各类未来状态-> 动作”的完整闭环。

1766735289375150.png

图片来源:蔚来汽车

从特斯拉的表态来看,它在云端生成了一个基于反事实推理的虚拟世界,高精度模拟重力、碰撞、流体动力学等物理规则,根据FSD智能体的传感器数据和动作实时生成高保真的驾驶场景,让FSD在这个虚拟世界中7x24小时不间断行驶, 进行长尾场景的压力测试并评估其长期表现。至于在车端,FSD到底部署的是不是“反事实推理”形式的世界模型,特斯拉没有给出明确的答案。

3   写在最后

为了避免友商学习,车端FSD推理模型架构应该是特斯拉的头号机密。如果非要说出个一二三,可以明确的是,FSD既没有采用双系统方案,也没有采用VLA技术路线,其技术路线更接近于内嵌对物理规律的理解能力的世界行为模型,跟华为的WA 架构更加接近。不过,在WA架构上,华为的细节分享也不多。不要觉得他们小气,行业正处于辅助驾驶迈向自动驾驶的关键阶段,谁也不想分享自己的杀手锏,理解万岁吧。矛盾永远存在于一切事物的发展过程中,贯穿于每一事物的发展始终。

(本文来源于《EEPW》


评论


技术专区

关闭