专栏中心

EEPW首页 > 专栏 > 地平线 3D 目标检测 bev_sparse 参考算法-V1.0

地平线 3D 目标检测 bev_sparse 参考算法-V1.0

发布人：地平线开发者时间：2024-10-30 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

该示例为参考算法，仅作为在征程 6 上模型部署的设计参考，非量产算法

01 简介

在自动驾驶视觉感知系统中，为了获得环绕车辆范围的感知结果，通常需要融合多摄像头的感知结果。目前更加主流的感知架构则是选择在特征层面进行多摄像头融合。

其中比较有代表性的路线就是这两年很火的 BEV 方法，继 Tesla Open AI Day 公布其 BEV 感知算法之后，相关研究层出不穷，感知效果取得了显著提升，BEV 也几乎成为了多传感器特征融合的代名词。

但是，随着大家对 BEV 研究和部署的深入，BEV 范式也逐渐暴露出来了一些缺陷：

感知范围、感知精度、计算效率难平衡：从图像空间到 BEV 空间的转换，是稠密特征到稠密特征的重新排列组合，计算量比较大，与图像尺寸以及 BEV 特征图尺寸成正相关。
在大家常用的 nuScenes 数据中，感知范围通常是长宽 [-50m， +50m] 的方形区域，然而在实际场景中，我们通常需要达到单向 100m，甚至 200m 的感知距离。
若要保持 BEV Grid 的分辨率不变，则需要大大增加 BEV 特征图的尺寸，从而使得端上计算负担和带宽负担都过重；若保持 BEV 特征图的尺寸不变，则需要使用更粗的 BEV Grid，感知精度就会下降。
因此，在车端有限的算力条件下，BEV 方案通常难以实现远距离感知和高分辨率特征的平衡；
无法直接完成图像域的 2D 感知任务：BEV 空间可以看作是压缩了高度信息的 3D 空间，这使得 BEV 范式的方法难以直接完成 2D 相关的任务，如标志牌和红绿灯检测等，感知系统中仍然要保留图像域的感知模型。

实际上，我们感兴趣的目标（如动态目标和车道线）在空间中的分布通常很稀疏，BEV 范式中有大量的计算都被浪费了。因此，我们希望实现一个高性能高效率的长时序纯稀疏融合感知算法，一方面能加速 2D->3D 的转换效率，另外一方面在图像空间直接捕获目标跨摄像头的关联关系更加容易，因为在 2D->BEV 的环节不可避免存在大量信息丢失。

地平线提出了 Sparse4D 及其进化版本 Sparse4D v2，从 Query 构建方式、特征采样方式、特征融合方式、时序融合方式等多个方面提升了模型的效果。

02 性能精度指标

03 公版模型介绍

Sparse4D 采用了 Encoder-Decoder 结构。其中 Encoder 包括 image backbone 和 neck，用于对多视角图像进行特征提取，得到多视角多尺度特征图。

同时会 cache 历史帧的图像特征，用于在 decoder 中提取时序特征；Decoder 为多层级联形式，输入时序多尺度图像特征图和初始化 instance，输出精细化后的 instance，每层 decoder 包含 self-attention、deformable aggregation 和 refine module 三个主要部分。

学习 2D 检测领域 DETR 改进的经验，我们也重新引入了 Anchor 的使用，并将待感知的目标定义为 instance，每个 instance 主要由两个部分构成：

Instance feature ：目标的高维特征，在 decoder 中不断由来自于图像特征的采样特征所更新；
3D Anchor ：目标结构化的状态信息，比如 3D 检测中的目标 3D 框（x， y， z， w， l， h， yaw， vx， vy）；公版通过 kmeans 算法来对 anchor 的中心点分布进行初始化；
同时，在网络中会基于一个 MLP 网络来对 anchor 的结构化状态进行高维空间映射得到 Anchor Embed
专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：算法 自动驾驶

更多 培训课堂

更多焦点

更多视频

专栏中心

地平线 3D 目标检测 bev_sparse 参考算法-V1.0

相关推荐

高阶智驾要落地，线控底盘为什么必须执行得准

计算机科学与技术反思录(2)

恩智浦第三代雷达收发器助力高性能成像雷达规模量产，赋能L2+至L4级自动驾驶

有关指纹算法

英伟达 “全天候” 芯片实现毫秒级人脸检测

自动驾驶的现状与未来（节选）

实时训练驾驶人工智能

自动驾驶正推动汽车行业加速布局人形机器人

无线传感器网络低功耗分簇路由算法设计

数字PID控制及其改进算法的应用

76-81GHz自动驾驶CMOS RADAR

[转帖]us/os就绪表的维护算法分析

简单实用的单片机CRC 快速算法

加密算法之MD5算法

求FSK信号的解调算法，主要是铁路上的移频信号!

基于LPC2138的血压测量算法开发平台电路图

目标跟踪算法在红外热成像跟踪技术上的应用

曲面显示屏取代传统汽车挡风玻璃

携手ADI赢得未来

加快实现自动驾驶（完整小组讨论）

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

掘金自动驾驶，不要把大坑当机会

ADI：传感技术助力未来自动驾驶的发展

vxwokrs下静态图像压缩算法（上）

面向算法硬件加速的FPGA实现方法

数字PID控制算法之一

PID算法

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

2035年自动驾驶出租车市场规模将达1680亿美元

CRC算法原理及C语言实现

技术专区