专栏中心

EEPW首页 > 专栏 > 【征程 6 工具链性能分析与优化-1】编译器预估 perf 解读与性能分析

【征程 6 工具链性能分析与优化-1】编译器预估 perf 解读与性能分析

发布人：地平线开发者时间：2024-11-05 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

01 引言

本篇文章中，我们将首先介绍 layerdetails 中的参数信息，然后将结合实例分析如何利用 layerdetails 来分析模型的性能瓶颈，进而对模型的性能进行优化。

02 layerdetails 中信息解读

征程 6 工具链目前提供了两种方式生成性能评估报告：

使用hb_compile工具编译模型时会自动生成性能评估报告；
编译出 hbm 模型后，使用编译器提供的 python API hbm_perf生成性能评估报告，这里需要注意，调用 compile 接口编译模型时需要开启 debug 后才能生成 layerdetails。

性能预估报告包括 html 和 json 两个版本，通常看 html 即可。

html 中包括 Summary、Temporal Statistics 和 Layer Details 这 3 个部分，下面将逐一介绍。

2.1 Summary

FPS**( 1 core)**
在 1 个 BPU 内核上运行时的估计 FPS。
Latency
编译后的模型推理一次的时间，编译的模型可能包含 batch。
BPU conv original OPs per frame
原始模型卷积层的计算量。卷积变体（deconv、dilated conv、deformable conv 等）也被计算在内。

2.2 Temporal Statistics

Loaded bytes per frame
每帧推理 BPU 需要读取 DDR 的字节数。（编译时可能有batch，每帧推理不一定等于每次推理）
Stored bytes per frame
每帧推理 BPU 需要写入 DDR 的字节数。（编译时可能有batch，每帧推理不一定等于每次推理）
DDR (loaded + stored) bytes per frame:
每帧推理 BPU 需要读写 DDR 的字节数
DDR bytes per second (for xxx FPS):
每秒BPU需要读写 DDR 的字节数。

2.3 Layer Details

layer
原始模型的 layer name。torch 模型没有 layer name，torch 转 hbir 时会自动命名
original ops
原始 layer 的计算量（包含卷积及其变种）
computing cost( no DDR**)**
编译后 layer 的时间开销，不包括 DDR 相关的时间开销，但会包含 reorder（数据重排）的开销
load/store cost
编译后 layer 的 DDR 访问时间开销。对于非模型输入输出的 feature，DDR 访问可能被优化掉。
active period of time
编译后 layer 活跃时间段。不代表该 layer 的执行时间，通常都是多个 layer 交替/并行执行。

03 性能分析实例

3.1 通用流程

首先观察 Temporal Statistics 统计图中的曲线：
观察 computing 曲线是否有波动，带宽瓶颈会引起它的波动
观察 load&store 柱状图，配合 computing 曲线，判断是否有带宽瓶颈
然后根据时态统计图中的时间轴，观察在某区间的 layer detail。

3.2 实例分析

分析过程

1.观察 computing 曲线是否有波动，带宽瓶颈会引起它的波动：

如上图，此模型的 computing 曲线波动较大，模型可能存在带宽瓶颈。

2.进一步观察 load&store 柱状图，并配合 computing 曲线：

可以看到，图中由多处的 load&store 柱状图高于 computing 曲线，这些地方可能存在了带宽瓶颈。

####

3.根据时态统计图中的时间轴，观察在某区间的 layer detail：

如上图，标记了 6 处 load&store 柱状图高于 computing 的地方，对应的时间为：

然后根据 layerdetails 的 active period of time 查看以上时间点的对应算子：

标记点 1&标记 2

可以看到引起带宽瓶颈的算子的 Softmax_458_mul、MatMul_459，onnx 模型中对应的子结构为：

标记点 3

可以看到引起带宽瓶颈的算子的 Softmax_765_mul、MatMul_766，onnx 模型中对应的子结构为：

标记点 4

可以看到引起带宽瓶颈的算子的 Softmax_968_mul、MatMul_969，onnx 模型中对应的子结构为：

标记点 5

可以看到引起带宽瓶颈的算子的 Softmax_1171、MatMul_1172，onnx 模型中对应的子结构为：

标记点 6

可以看到引起带宽瓶颈的算子的 Softmax_1374、MatMul_1375，onnx 模型中对应的子结构为：

04 初步结论

综合以上分析结果可知，此模型中引起性能问题的是 Softmax 和 MatMul 算子组成的子结构，在下一篇文章中，我们将介绍模型性能相关的优化策略。

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：算法 自动驾驶

计算机科学与技术反思录(2)

liujt_ic 2003-06-06

PID算法

PID算法...

资源下载 PID 算法误差 2007-02-16

掘金自动驾驶，不要把大坑当机会

天下熙熙，皆为利来，天下攘攘，皆为利往。追求财富是现代人类的永恒主题，而股市正是快速获得财富（也是快速破产）的途径之一。虽说追热点死得快，但是，前赴后继的韭菜们依然乐此不疲地追逐着新的热点，幻想着一夜暴富的奇迹。25年年...

汽车电子自动驾驶 2026-04-17

加密算法之MD5算法

加密算法之MD5算法...

资源下载加密算法加密算法 MD5算法 2007-02-16

恩智浦第三代雷达收发器助力高性能成像雷达规模量产，赋能L2+至L4级自动驾驶

采用RFCMOS工艺的汽车雷达收发器，集成8个发射通道和8个接收通道，助力实现多达576个天线通道的新一代成像雷达传感器，全面服务高级驾驶辅助系统（ADAS）和自动驾驶应用。最新动态恩智浦半导体（NXP Se...

汽车电子恩智浦雷达收发器成像雷达自动驾驶 2026-03-27

实时训练驾驶人工智能

自动驾驶是物理 AI 领域难度最高的问题之一。自动驾驶系统必须实时解读混乱、动态变化的环境，应对不确定性、预测人类行为，并在海量场景与极端工况下安全运行。在通用汽车，我们的出发点很简单：道路上绝大多数场景都是可预测的，但...

汽车电子自动驾驶物理 AI 多智能体强化学习模拟器 GM 2026-03-31

[转帖]us/os就绪表的维护算法分析

amine 2002-05-17

目标跟踪算法在红外热成像跟踪技术上的应用

设计方案目标跟踪算法红外成像技术上应用 2009-09-03

ADI：传感技术助力未来自动驾驶的发展

ADI公司自动驾驶和汽车安全部副总裁Chris Jacobs介绍ADI的传感技术如何助力未来自动驾驶的发展，以及自动驾驶技术如何造福社会和挽救生命。...

视频 ADI 自动驾驶 2020-03-16

2035年自动驾驶出租车市场规模将达1680亿美元

据 Counterpoint Research 最新发布的《全球自动驾驶出租车车辆销售及服务市场预测报告》显示，到 2035 年，全球自动驾驶出租车市场规模预计将达到 1680 亿美元。Counterpoint Rese...

汽车电子自动驾驶 2026-04-21

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

设计方案采用 Mean-Shift Camshift 算法相结合 2011-06-27

高阶智驾要落地，线控底盘为什么必须执行得准

高阶智驾继续落地后，车辆不能只依赖感知和决策，线控转向、线控制动和主动悬架等底盘执行系统也要更准、更稳。本文结合 Allegro 在线控底盘、48V、传感器、电机驱动、电源管理和功能安全方面的分享，分析底盘电子化对汽车半...

汽车电子线控底盘智能底盘 Allegro 汽车电子 48V 功能安全电流传感器位置传感器电机驱动电源管理自动驾驶线控制动线控转向 2026-05-09

加快实现自动驾驶（完整小组讨论）

汽车行业正在经历数字化转型，需要处理自动驾驶化方面极为复杂的创新。观看专家小组讨论的视频，其中包括ADI公司自动驾驶和安全事业部副总裁Chris Jacobs。...

视频 ADI 自动驾驶 2020-06-12

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

奥斯特（Ouster）正式推出Rev8 OS 数字激光雷达传感器系列，该产品基于公司自研 L4 级 Ouster Silicon 芯片架构打造，面向自动驾驶、机器人、智能基建及工业感知场景。新品系列首次搭载原生彩色激光雷...

汽车电子自动驾驶机器人 2026-05-13

曲面显示屏取代传统汽车挡风玻璃

如果某行业 “汽车用户界面” 工作组的提案得以推行，经典的透明玻璃汽车挡风玻璃或将成为历史。取而代之的并非标准的纯被动透视玻璃，而是一块大型曲面显示屏，以电子方式向驾驶员和乘客呈现多个 “画面分区”。中间区域面积最大，显...

汽车电子挡风玻璃曲面显示屏自动驾驶 2026-04-08

有关指纹算法

wsf999 2004-08-06

数字PID控制及其改进算法的应用

设计方案数字控制及其改进算法应用 2011-05-11

无线传感器网络低功耗分簇路由算法设计

设计方案无线传感器网络功耗路由算法设计 2012-09-07

求FSK信号的解调算法，主要是铁路上的移频信号!

dhlwq007 2004-08-04

76-81GHz自动驾驶CMOS RADAR

查看我们创新型高度集成式28nm CMOS RADAR雷达解决方案的系统级演示，该方案将角分辨率指数级升高，以支持面向OEM、一级厂商、创业公司和颠覆性初创公司的高度自动化的驾驶应用。了解有关汽车解决方案的更多信息...

视频 ADI 自动驾驶 CMOS RADAR 2018-05-31

面向算法硬件加速的FPGA实现方法

当开发者想要榨干某一算法的极限性能、且软件优化手段已全部用尽时，可以通过软硬件功能重新划分对任务进行硬件加速。借助 FPGA，无需更换处理器、也无需改动电路板级设计，就能轻松将软件模块替换为硬件模块。本文将讲解如何利用 ...

嵌入式系统算法硬件加速 FPGA 2026-04-30

vxwokrs下静态图像压缩算法（上）

C-- 2004-07-26

基于LPC2138的血压测量算法开发平台电路图

设计方案基于 LPC2138 血压测量算法开发平台电路图 2010-01-20

CRC算法原理及C语言实现

本文从理论上推导出CRC算法实现原理，给出三种分别适应不同计算机或微控制器硬件环境的C语言程序。读者更能根据本算法原理，用不同的语言编写出独特风格更加实用的CRC计算程序。...

资源下载 CRC 算法 C语言 2007-02-16

英伟达 “全天候” 芯片实现毫秒级人脸检测

全天候视觉系统可应用于自动驾驶汽车、机器人，或帮助消费电子设备在无人时关闭屏幕以节省功耗。但要实现这类应用，这些系统必须最大限度降低自身功耗。英伟达研究人员开发的全天候计算机视觉系统可在不到 1 毫秒内检测到人脸。这款人...

汽车电子英伟达人脸识别视觉处理自动驾驶机器人 2026-03-24

简单实用的单片机CRC 快速算法

提供两个实用的、能够在单片机上通过软件来实现的CRC 快速算法，其中一个适用于51 系列等单片机，另一个适用于PIC 单片机，这两种算法十分简单快捷。...

资源下载 CRC 算法单片机 2007-02-16

携手ADI赢得未来

从自动驾驶到医疗健康，我们的客户能够利用相关数据和核心见解展开创新。我们将现实世界转化为可操作的见解，从而不断推动客户实现行业变革。...

视频 ADI 自动驾驶医疗健康 2019-11-08

自动驾驶的现状与未来（节选）

在本节选视频中，ADI公司自动交通和汽车安全副总裁Chris Jacobs探讨自动驾驶的现状和未来，及其对社会的影响。...