别吵了,VLA只是通往世界模型的过渡方案
25年11月的AI科技日上,小鹏正式推出了第二代VLA架构,一句“是VLA,也是世界模型”的表态,标志着小鹏图灵AI自动驾驶算法正式转向了华为、特斯拉主导的世界模型。为了继承过去一年来在VLA上的营销成果,同时避免给本土头号竞争对手华为当绿叶,小鹏依然倔强地保持着VLA的宣传口径,但在事实上,其第二代VLA基于“感知-行动”闭环,采用世界模型的V+L->A算法架构,已经脱离了基于“感知-语言-行动”闭环的标准V-L-A架构。小鹏的转向意味着搅扰了本土自动驾驶行业半年之久的VLA和世界模型之争即将走向结束。那么,放在更大的AI行业背景下,标准VLA架构和世界模型的根本区别在哪儿,为何头部智驾企业纷纷转向世界模型呢?
两种智能形式
25年11月10日,李飞飞发表万字长文-《空间智能是人工智能的下一个前沿》,洋洋洒洒一大篇,将人们对AI的关注焦点从面向数字世界的语言模型引向了面向物理世界的世界模型。借用这位在上世纪八十年代末九十年代因故初移民大美丽的华裔科学家的言论,“至少对AI而言,世界远不止于文字。空间智能代表了语言之外的前沿”,语言智能并不能囊括人工智能的所有内涵。事实上,根据业界共识,存在语言智能、空间智能两种主要的智能形式,分别对应AI之父图灵七十多年前所讲的抽象计算和具身智能两条发展路径。

图片来源:辉羲智能
从本质上讲,标准VLA以抽象的语言智能为核心,世界模型则以直观的空间智能为核心。这种回归本质的洞察让之前的VLA-世界模型之争多多少少显得有些无厘头,因为,一个很容易就能得出的结论是,对于自动驾驶而言,其面临的真实交通场景之复杂远非语言模型能够完全理解和描述,具备空间智能的世界模型才是让自动驾驶系统能够超越规则和文本描述、获得对物理世界直观理解的关键。对应到人类这个物种智能的发展史上,驾驶任务更多依赖的是在语言出现之前的几十亿年里发展出来的具身智能,这是一种比语言智能更基础、更古老的智能形式,而非文字出现之后的几千年里才发展出来的语言智能。

图片来源:清华大学
代表语言智能的大语言模型LLM是对信息和思想的高度压缩和编码,基本原理是基于“下一个Token预测”的认知生成。作为一种一维序列信号,语言这种描述世界的工具在压缩和编码上的损失程度非常大。即便文本大语言模型之后的多模态大语言模型MLLM在文本数据之外接受了大量视频数据的训练,让它们具备了一些基础的空间意识,但是,它们在估算距离、方向和尺寸这些关键的空间要素时依然存在非常大的误差,以至于这类MLLM无法完整表征自动驾驶车辆在其中运行的真实3D物理世界,在跟空间物理世界互动时存在很多局限。

图片来源:极氪
相较于以语言作为主要表达方式的数字世界,物理世界遵循的规则要复杂得多,有各种各样的物理定律约束着交通参与者的每一次互动。交通场景中包含各种遵循物理定律和自身动态行为特性的空间物体,面对跟交通行为密切相关的所有这些物体的语义、几何、动态和物理信息,自动驾驶系统必须通过一种远比文本一维序列信号复杂得多的“特殊语言”,或隐式或显式地建立起对世界本身的深刻理解,内嵌包含对三维空间的理解、推理和交互能力的空间智能,才能在三维的世界中安全运行。
维度压缩与世界的坍塌
从维度的视角,我们很容易就能发现,语言模型在自动驾驶任务中的根本局限在于试图以一维序列信号描述中间差着两个维度的三维物理空间!这种方法不仅在难度上“蜀道难,难于上青天”,在理念上也存在天然的缺陷。
从本质上来讲,文本语言是一个一维且离散的符号序列,作为大语言模型在自动驾驶中的衍生模型,VLA以大语言模型为核心,通过一维的文本Token来理解和生成对世界的描述。也就是说,在自动驾驶算法中,VLA模型先将来自摄像头的二维图像和来自激光雷达的三维点云这些二、三维世界的丰富信息向下降维,翻译成一维的语言信号,再通过大语言模型进行推理。从二维和三维到一维的转换,不仅带来了推理延迟的问题,更重要的是,这种降维方式必然面临严重的损失和失真。

图片来源:地平线
相较于语言模型这种一维的描述者,世界模型更像是三维世界的模拟者。在本质上,自动驾驶车辆行驶的物理世界是三维空间叠加时间维度的连续存在,世界模型通过无法以自然语言形式表达的特殊语言,在内部直接构建一个动态的、包含自车和其它交通参与者几何、形状、距离、速度、加速度等物理属性的世界表征,绕过语言的代理,直接在高维度的连续状态空间中推理和动作。
到这里,我们可以反向运用一下维特根斯坦的那句名言了。这位散尽家财的伟大哲学家说,语言的边界就是世界的边界。反过来想就是,对于依赖于语言智能的AI模型而言,其世界的丰富性被死死地限制在了一维语言所能描述的范围之内,而这个精彩的物理世界上存在着多少语言无法精确表达、只可意会不可言传的微妙细节呢?
语言智能不可或缺
小孩子才做选择题,成年人选择我都要。对自动驾驶系统而言,虽然语言智能存在着诸多缺陷,但它也是不可或缺的。其实,人类驾驶员的优越性恰恰在于我们同时拥有语言智能和空间智能这两种能力,我们既能用语言来思考红灯停、绿灯行的交通规则,也能依赖强大的空间智能实现安全的操控。
在一个完整的自动驾驶系统架构中,语言智能负责高层次任务规划与交互,对司机或乘客以非结构化自然语言给出的指令进行意图理解和任务分解,还可以通过文字或语音的方式给出路况解析,增强用户对自动驾驶系统的信任感。空间智能负责具体的环境感知、精准定位、行为预测和动作执行,识别各类目标、预测其它交通参与者意图、避开障碍物、完成加减速和转向等动作。

图片来源:理想汽车
我们也可以借用具身智能领域的大小脑理论来区分语言智能和空间智能。基于语言模型的大脑负责人机交互,在更高层级进行意图理解、任务拆解、路线规划、目的地变更、场景解释,基于世界模型的小脑负责运动控制,基于对三维空间和时间的理解,预测各个交通参与者之间的互动如何影响四维空间中的变化和分布,并生成自车的驾驶动作。
总之,语言智能和空间智能是分工协作而非互相排斥的关系,其最终的目的都是为了更安全、更高效地完成驾驶任务。
写在最后
为了实现自动驾驶,我们需要的是与语义、物理、几何和动态上都极为复杂的物理世界进行互动的能力,这种精细且严苛的理解、推理、生成能力远非今天的大语言模型所能及,这是头部自动驾驶玩家果断抛弃以大语言模型为核心的VLA技术路线的根本原因。不过,语言也是这个三维世界的重要组成部分,要实现高等级自动驾驶,既需要具备感知、推理、规划和行动的空间智能,具备高层次抽象表达或描述能力的语言智能也是不可或缺的。不过,对驾驶任务而言,空间智能是主要矛盾,语言智能是次要矛盾,基于这一点,VLA或许只是通向世界模型的中间过渡方案。










评论