专栏中心

EEPW首页 > 专栏 > 智能驾驶感知算法的演进

智能驾驶感知算法的演进

发布人:地平线开发者 时间:2026-04-07 来源:工程师 发布文章
从 2D 感知到 BEV 世界模型

1.png

一、问题的本质:自动驾驶究竟要“理解”什么

智能驾驶中的感知算法,并不是单纯回答“画面里有什么”,而是要回答三个更困难的问题:

  1. 世界在三维空间中是什么样的

  2. 不同传感器看到的是否是同一个世界

  3. 这个世界在时间维度上如何连续变化

早期感知算法的发展,很长一段时间都停留在“看清楚图像内容”,而不是“理解真实世界结构”。 BEV(Bird’s Eye View)路线的出现,本质上是一场从图像认知到世界建模的范式迁移

二、2D Image-space 感知:从“能识别”开始,但止步于图像1.典型范式

最早一代智驾感知算法几乎全部工作在 Image-space:

  • 输入:单目或多目 RGB 图像

  • 输出:2D bounding box、2D segmentation mask

  • 核心任务:检测车辆、行人、交通标志

这一阶段的算法高度继承了通用计算机视觉的发展成果,如 Faster R-CNN、YOLO、Mask R-CNN 等。

2.png

2.这一代真正解决了什么问题

2D 感知第一次让自动驾驶系统具备了“看懂画面”的能力:

  • 能稳定识别物体类别

  • 能在复杂背景中找到关键目标

  • 能在消费级算力上实时运行

这是必要的一步,没有这一代,后续所有感知算法都无从谈起。

3.根本性缺陷

Image-space 感知存在无法通过模型规模解决的结构性问题:

  • 没有真实几何

  • 多相机之间缺乏统一坐标系

  • 所有空间关系只是投影结果

Image-space 感知并不真正理解世界,而是在理解像素。

三、LiDAR-first 时代:几何优先,但语义不足1.点云带来的改变

LiDAR 的引入让感知系统第一次拥有真实三维信息:

  • 点云天然位于世界坐标系

  • 距离、尺寸、位置无需推测

  • 3D Box 成为可能

VoxelNet、PointPillars、SparseConv 等方法逐渐成为主流。 3.png

2.解决的关键问题
  • 准确的空间几何

  • 稳定的目标定位

  • 易于与规划模块对接

在空间可信度上,LiDAR-first 路线显著优于纯视觉。

3.局限性
  • 成本与功耗高

  • 点云语义信息稀疏

  • 视觉信息利用不足

单一传感器难以同时满足几何与语义需求。

四、BEV:统一世界坐标系的关键一步

4.png

BEV(Bird’s Eye View)不是一种模型,而是一种世界表示方式:

  • 所有感知结果统一到俯视视角

  • 多相机天然对齐

  • 空间关系直观,利于规划与预测

BEV 的出现,标志着感知开始围绕“决策友好性”设计。

1.第一代 BEV 的实现方式

早期 BEV 依赖显式几何:

  • 深度估计

  • 相机标定

  • 投影矩阵

通过 image → depth → world → BEV 的方式完成映射。

2.暴露的问题
  • 深度误差被放大

  • 对噪声极其敏感

  • 单帧 BEV 抖动明显

问题不在 BEV,而在从 image 到 BEV 的方式。

五、BEVFormer:让模型学习投影关系

BEVFormer 的核心思想是:

不再显式计算深度,而是让模型学习 BEV 与图像之间的对应关系。

1.核心机制
  • BEV Query:BEV 空间中的查询点

  • Spatial Cross-Attention:BEV 与多相机特征交互

  • Temporal Self-Attention:引入历史 BEV

2.带来的突破
  • 摆脱显式深度建模

  • 自动学习复杂投影关系

  • 时序建模提升稳定性

BEVFormer 让 camera-only BEV 感知在精度上具备竞争力。

3.新问题
  • Transformer 计算复杂

  • 显存与算力消耗大

  • 工程部署成本高

BEVFormer 是算法正确性的高峰,但也引入了工程压力。

六、BEVFusion:多模态 BEV 的系统化尝试1.出发点

Camera 语义强但几何不稳,LiDAR 几何稳但语义弱。

BEVFusion 试图在 BEV 空间融合两者优势。

2.核心思想
  • Camera → BEV

  • LiDAR → BEV

  • 在 BEV 空间完成融合

3.优势
  • 几何稳定性提升

  • 多模态互补自然

  • 极端场景鲁棒性更强

4.代价
  • 模型结构复杂

  • 多分支系统维护成本高

  • 推理链路变长

BEVFusion 提升了系统完整性,但工程复杂度显著上升。

七、Sparse4D:向现实系统妥协的 BEV1.核心判断

Dense BEV 中,大多数网格并无有效信息,计算存在浪费。

2.核心变化
  • Dense BEV → Sparse 表示

  • 空间建模 → Object-centric 建模

  • 强调时序一致性

3.解决的问题
  • 显著降低计算量

  • 更易满足实时性

  • 更接近可部署系统需求

4.取舍
  • 全局建模能力下降

  • 更依赖 tracking 与初始化

  • 系统设计复杂度提升

Sparse4D 是工程理性下的选择。

八、数据与传感器:算法演进的真正推手1.数据集演进
  • 单帧 → 长时序

  • 单传感器 → 多模态

  • 公共数据 → 私有闭环

数据形态直接塑造算法结构。

2.传感器现实约束
  • Camera 数量增加

  • LiDAR 成本博弈

  • Radar 作为补充角色

这些现实因素持续影响 BEV 路线的取舍。

九、结语:BEV 是基础设施,而不是终点

BEV 的意义不在于某个具体模型,而在于:

自动驾驶系统第一次拥有了统一的世界表示。

未来模型名称可能变化,但在世界坐标系中建模、在时间维度中理解世界,将成为不可逆的方向。


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: 算法 自动驾驶 算法工具链 地平线 征程5

相关推荐

加密算法之MD5算法

数字PID控制算法之一

资源下载 2007-12-28

PID算法

资源下载 2007-02-16

76-81GHz自动驾驶CMOS RADAR

视频 2018-05-31

自动驾驶的现状与未来(节选)

视频 2020-03-16

简单实用的单片机CRC 快速算法

资源下载 2007-02-16

恩智浦第三代雷达收发器助力高性能成像雷达规模量产,赋能L2+至L4级自动驾驶

CRC算法原理及C语言实现

资源下载 2007-02-16

实时训练驾驶人工智能

日产联手优步与 Wayve,计划在东京推出自动驾驶出租车服务

ZF与SiliconAuto推出用于自动驾驶的实时I/O芯片

为什么可扩展高性能 SoC 是自动驾驶汽车的未来

汽车电子 2026-03-06

赋能自动驾驶和机器人感知,读懂二维可寻址VCSEL | 硬科技有点意思

携手ADI赢得未来

视频 2019-11-08

英伟达宣布与比亚迪、吉利展开自动驾驶业务合作

2026-03-17

ADI:传感技术助力未来自动驾驶的发展

视频 2020-03-16

采埃孚与SiliconAuto推出自动驾驶实时I/O接口芯片

加快实现自动驾驶(完整小组讨论)

视频 2020-06-12

英伟达 “全天候” 芯片实现毫秒级人脸检测

地平线HSD引领智能驾驶普惠新时代

更多 培训课堂
更多 焦点
更多 视频

技术专区