专栏中心

EEPW首页 > 专栏 > 理想汽车智驾方案介绍 2｜MindVLA 方案详解

理想汽车智驾方案介绍 2｜MindVLA 方案详解

发布人：地平线开发者时间：2025-08-24 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

一、引言

MindVLA 主要包括空间智能模块、语言智能模块、动作策略模块、强化学习模块，这些模块分别有以下功能：

空间智能模块：输入为多模态传感器数据，使用 3D 编码器提取时空特征，然后将所有传感器与语义信息融合成统一的表征。
语言智能模块：嵌入式部署的大语言模型 MindGP，用于空间 + 语言的联合推理，支持语音指令和反馈，可能实现人车交互。
动作策略模块：使用扩散模型生成车辆未来的行为轨迹，引入噪声来引导扩散过程以生成多样化的动作规划。
强化学习模块：使用 World Model 模拟外部环境响应，评估行为后果；使用奖励模型（Reward Model）：提供偏好或安全性评估，可能采用人类反馈（RLHF）；使用闭环学习根据行为轨迹进行持续优化和泛化。

其亮点包括：

快慢思维融合于同一模型（Fast-Slow Thinking in One Model）
从零开始预训练的嵌入式大语言模型
高斯建模的 3D Tokenizer 增强空间理解
支持空间与语言的联合推理
扩散策略实现群体交互与行为生成
基于人类反馈的行为偏好学习（RLHF）
通过闭环强化学习实现泛化能力提升
下面将对以上提及的核心技术进行剖析。

二、V-Spatial Intelligence：自监督 3D 高斯编码器预训练

2.1 传统端到端自动驾驶的不足

传统的端到端自动驾驶通过感知（Perception）生成 3D 目标框（3D Boxes）；然后预测模块使用 3D 目标和地图预测运动轨迹；规划模块根据预测进行轨迹规划。这种传统方法采用 BEV（鸟瞰图）或稀疏实例框作为场景表示，存在信息全面性与效率的权衡。BEV 压缩高度信息导致细节丢失，而稀疏查询可能忽略关键环境细节（如不规则障碍物）。密集体素表示计算开销大，难以支持实时决策。所以理想汽车提出了 GaussianAD 框架。

2.2 GaussianAD 框架的优点及核心方法

参考论文：GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

GaussianAD 用均匀的高斯序列初始化 3D 场景，并使用 4D 稀疏卷积来实现高斯之间的交互。然后从环视多帧图像提取多尺度特征，并使用可变形的交叉注意力将它们纳入 3D 高斯。在获得时间 3D 高斯作为场景表示后，可以选择使用对密集任务的高斯到体素 splatting（例如，3D 语义占用），或者使用稀疏卷积和最大池化进行稀疏任务（例如，3D 目标检测、高清地图构建、运动预测）。GaussianAD 使用 flow 头来预测每个高斯的 3D 流，并将其汇总用于轨迹规划。

2.2.1 3D 高斯场景表示

现有特征表示方法的不足

现有方法通常构建密集的 3D 特征来表示周围环境，并处理具有相等存储和计算资源的每个 3D 体素，这通常会因为资源分配不合理而导致难以解决的开销。与此同时，这种密集的 3D 体素表示无法区分不同比例的目标。

高斯表示的优势

高斯表示以均匀分布的 3D 高斯初始化场景，通过多视角图像逐步优化高斯参数（均值、协方差、语义），生成稀疏的 3D 语义高斯集合。每个高斯单元描述局部区域的几何和语义属性。高斯混合模型能近似复杂场景，稀疏性减少冗余计算，同时保留细粒度 3D 结构，极大地促进下游任务的性能提升。

感知任务

高斯特征提取

GaussianAD 首先将 3D 高斯及其高维查询表示为可学习的向量。然后，我们使用高斯编码器来迭代地回放这些表示。每个高斯编码器块由三个模块组成：一个促进高斯之间交互的自编码模块，一个用于聚合视觉信息的图像交叉关注模块，以及一个用于微调高斯属性的细化模块。与 GaussianFormer 不同，GaussianAD 使用由 4D 稀疏卷积组成的时间编码器，将上一帧的高斯特征与当前帧中的相应特征集成。

稀疏 3D 目标检测

提取到稀疏高斯特征后，采用 VoxelNeXt 根据稀疏体素特征预测 3D 目标。使用 3D 稀疏 CNN 网络来编码 3D 高斯表示，一组 Agent Tokens 来解码 3D 动态物体边界框。

稀疏语义地图构建

使用一组 Map Tokens 生成车道、边界等静态元素。

预测与规划

高斯流预测：基于当前高斯状态和规划轨迹，预测未来帧的高斯分布，通过仿射变换模拟自车运动后的观测场景。
轨迹规划：结合预测的高斯流和未来场景的占用情况，优化轨迹以最小化碰撞风险与轨迹偏差。

端到端训练

灵活监督：支持多任务监督（3D 检测、语义地图、运动预测、占用预测），通过损失函数联合优化：

感知损失（检测、地图、占用）
预测损失（未来场景与真实观测的差异）
规划损失（轨迹误差与碰撞率）

未来场景自监督：利用未来帧的真实观测作为预测监督，增强长期一致性。

三、L（Lingustic Intelligence）：定制化设计 LLM

L 模块的设计思想比较容易理解，LLM 模型是强大且通用的模型毋庸置疑，但是其使用的是互联网多模态数据资源进行训练的，数据场景和分布混乱，比如存在大量与自动驾驶无关的文史类数据，难以直接应用到自动驾驶场景中，尚不具备较强的 3D 空间理解能力、3D 空间推理能力和强大的语言能力，需要在模型的预训练阶段就要加入大量的相关数据。所以，理想汽车不计成本地从 0 开始设计和训练一个适合 VLA 的基座模型。在模型架构上还进行了稀疏化设计，减少模型容量，从而实现推理性能的提升。

上图为 PPT 上对 L 模块的介绍，其核心设计思想可以总结为：

基于开源 LLM 结构，重新设计适用于智驾场景的 LLM input tokenizer；
**稀疏化：**为了在增加模型参数量的同时平衡端侧推理速率，采用 MoE+SparseAttention 的高效结构；使用多个专家实现模型扩容，还可以保证模型参数量不会大幅度增加；引入 SparseAttention 进一步提升稀疏化率。
**训练数据配比重构：**融入大量的 3D 场景数据和自动驾驶相关图文数据，同时降低文史类数据的比例；
**进一步强化 3D 空间理解和推理能力：**加入未来帧的预测生成 + 稠密深度的预测；
**提升逻辑推理能力：**人类思维模式 + 自主切换快思考慢思考，慢思考输出精简的 CoT（采用的固定简短的 CoT 模板） + 输出 action token；快思考直接输出 action token；
**实时推理性能（10HZ）：**通过以下手段压榨 OrinX 和 ThorU 的性能，在同一个 Transformer 模型中加入了两种推理模式：

CoT 生成加速：小词表 + 投机推理（推理模式 1: 因果注意力机制 token by token 的逐字输出）；
action token 生成加速：并行解码的方式（推理模式 2: 双向注意力机制并行一次性输出）；

四、A（Action Policy）：生成精细化动作

参考论文：https://arxiv.org/abs/2503.10434

4.1 总体介绍

LLM 基座模型构建完成后，利用扩散模型 Diffusion Model 将 action token 解码为最终的轨迹，包括自车轨迹、他车和行人的轨迹，这样可以提升 VLA 模型在复杂交通环境下的博弈能力。另外，Diffusion Model 还具有根据外部的条件改变生成结果，类似于图像生成领域的多风格生成。

上图为 PPT 上对 V 模块的介绍，其核心设计思想可以总结为：

引入多层 DIT（Diffusion Transformer）结构；
**提升生成效率：**基于常微分方程的 ode 采样器大幅的加速 diffusion 的生成过程，使其在 2～3 步内完成稳定轨迹的生成；
**对齐人类驾驶员行为：**使用 RLHF 做后训练，通过人类偏好数据集微调模型的采样过程，对齐专业驾驶员的行为，提高安全驾驶的下限。其中，人类偏好数据集搭建：人类驾驶数据 + NOA 的接管数据

4.2 TrajHF

TrajHF 通过多条件去噪器生成多样化轨迹 + 人类反馈驱动的强化学习微调，解决了生成模型与人类驾驶偏好的对齐问题。其结构兼顾生成能力与个性化适配，在安全约束下实现了驾驶风格的灵活调节，为自动驾驶的“人车共驾”提供了新范式。

4.2.1 动机

数据集偏差：传统模仿学习（IL）仅学习数据集的平均行为，忽略人类驾驶的微妙偏好（如攻击性超车、保守跟车等）。
分布偏移：生成模型易受高频模式主导，难以生成低频但符合人类偏好的轨迹（如复杂交互中的适应性行为）。
高阶因素缺失：人类驾驶受风险容忍度、社会交互等隐性因素影响，现有模型难以编码。

4.2.2 核心思想

人类反馈作为监督信号：通过人类标注的轨迹排序或偏好标签，引导模型学习多样化驾驶风格。
强化学习微调（RLHF）：将偏好转化为奖励函数，优化策略以最大化人类偏好奖励。
多模态生成与约束平衡：结合扩散模型生成多样化候选轨迹，通过强化学习微调对齐偏好，同时用行为克隆（BC）损失保留基础驾驶能力。

4.2.3 模型结构

TrajHF 包括生成轨迹模型（Diffusion Policy）和强化学习微调（RL Finetuning）这两个部分，其中 RL Finetuning 是最大化人类偏好奖励。

除了这两个部分，个人认为 TrajHF 中最重要的是偏好数据的自动构建，我们首先就来介绍这个部分。

偏好数据自动构建

偏好数据自动构建过程如下图所示，这个过程涉及用不同的驾驶风格标签标记大量驾驶数据。然而，出现了实际挑战，例如确定每个场景或框架是否需要驾驶风格标签。以下步骤概述了这些挑战和相应的解决方案。

**场景挖掘：**人类驾驶通常发生在普通环境中，这使得很难为每个决定定义特定的驾驶风格，而且手动手动注释效率低下。论文发现人类司机接管数据可以帮助识别偏好场景。这些数据分为六类（例如，“过于激进”或“过于保守”），每个类别对应不同的驾驶风格，可用于定义规则或训练模型，以识别偏好场景。
**关键帧标注：**在确定偏好场景后，只需要标记与偏好相关的部分，专注于发生重要动作的关键帧，例如速度或方向的变化。如果帧标记过早，则定义操作尚未发生；如果标记过晚，则该操作已经开始。关键帧识别的明确规范允许基于规则的自动检测，从而实现潜在的大规模注释。
**手动检查：**注释的关键帧经过随机手动检查，以确保数据质量。人工检查员可以在特殊情况下更新场景定义或引入新的偏好场景。

Diffusion Policy

Diffusion Policy 的核心组件是多条件去噪器（Multi-Conditional Denoiser， MCD），它的工作过程如下：

输入：多模态感知数据；
轨迹表示：将轨迹转换为动作空间，减少时间异方差性。
去噪过程：

噪声动作经 MLP 编码，与状态/时间嵌入融合。
图像与激光雷达特征通过骨干网络（ViT + ResNet34）提取，经融合 Transformer 交互生成 BEV 特征。
条件与噪声动作通过交叉注意力模块迭代去噪。

输出：生成 K 条多模态候选轨迹（8 个航迹点，覆盖 4 秒）。

RL Finetuning

RL Finetuning 的目标是最大化人类偏好奖励，主要包括奖励计算和策略优化两个步骤，其中涉及较多数学计算，感兴趣的同学可以自行研读论文。

参考资料

https://zhuanlan.zhihu.com/p/1885988337225032557

理想贾鹏 GTC 2025 演讲 PPT

理想贾鹏 GTC 2025 讲 VLA 完整视频

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

ibili.com/video/BV11yX5Y9EEj/?vd_source=115911bd71b74bfcc0cad43e576887e4)

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：算法 自动驾驶 算法工具链 地平线 征程5

更多 培训课堂

更多焦点

更多视频

专栏中心

理想汽车智驾方案介绍 2｜MindVLA 方案详解

相关推荐

地平线征程 6 系列集成 Cadence Tensilica Vision DSP，实现规模化量产，合作加速智能驾驶解决方案部署

实时训练驾驶人工智能

无线传感器网络低功耗分簇路由算法设计

2035年自动驾驶出租车市场规模将达1680亿美元

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

高阶智驾要落地，线控底盘为什么必须执行得准

加快实现自动驾驶（完整小组讨论）

有关指纹算法

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

ADI：传感技术助力未来自动驾驶的发展

自动驾驶的现状与未来（节选）

vxwokrs下静态图像压缩算法（上）

掘金自动驾驶，不要把大坑当机会

面向算法硬件加速的FPGA实现方法

数字PID控制算法之一

简单实用的单片机CRC 快速算法

基于LPC2138的血压测量算法开发平台电路图

特斯拉监督版FSD加入中国市场

数字PID控制及其改进算法的应用

[转帖]us/os就绪表的维护算法分析

76-81GHz自动驾驶CMOS RADAR

求FSK信号的解调算法，主要是铁路上的移频信号!

曲面显示屏取代传统汽车挡风玻璃

计算机科学与技术反思录(2)

携手ADI赢得未来

CRC算法原理及C语言实现

自动驾驶正推动汽车行业加速布局人形机器人

加密算法之MD5算法

目标跟踪算法在红外热成像跟踪技术上的应用

PID算法

技术专区