专栏中心

EEPW首页 > 专栏 > 征程 6｜部署模型尾部 conv 输出 type/layout/scale 解读

征程 6｜部署模型尾部 conv 输出 type/layout/scale 解读

发布人：地平线开发者时间：2025-04-20 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

1. 引言

在算法模型部署阶段，大家可能会遇到这三个问题：

为了保证精度，模型尾部 conv/linear 需要是 int32 输出

为了适配后处理代码，模型尾部 conv/linear 输出 layout 有时是 NCHW 的，有时是 NHWC 的

为什么 conv/linear 输出的 scale 会是 1？这符合预期吗？

本文使用 pytorch 框架，以 conv 为例，介绍如何同时满足 conv int32 + NCHW/NHWC 这两种情况。另外，专开一个章节介绍 scale 为 1 的原因。

2. 输出类型/layout 解读

2.1 Conv int32 + NCHW

从一个基础示例看 conv 输出类型与 layout：

class SmallModel(nn.Module):
    def __init__(self):
        super(SmallModel, self).__init__()
        self.quant = QuantStub()
        self.dequant = DeQuantStub()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=256, kernel_size=1)
        self.batchnorm = nn.BatchNorm2d(256)
        self.relu = nn.ReLU()
        self.conv2 = nn.Conv2d(in_channels=256, out_channels=60, kernel_size=1)
    
    def forward(self, x):
        x = self.quant(x)
        x = self.conv1(x)
        x = self.batchnorm(x)
        x = self.relu(x)
        x = self.conv2(x)
        x = self.dequant(x)
        return x

example_input = torch.randn(8, 1, 1, 160)
model = SmallModel()
output = model(example_input)

进行工具链量化转换后，输出 conv 情况如下图：

Description

BPU conv 输出默认是 NHWC 的，由于 pytorch 框架输出是 NCHW 的，所以工具会在模型尾部自动加一个 transpose 来保证 layout 一致。此时，模型尾部 conv 输出也是 int32 的，符合 conv int32 + NCHW 预期。

2.2 Conv int32 + NHWC

错误示范

class SmallModel(nn.Module):
    def __init__(self):
        super(SmallModel, self).__init__()
        self.quant = QuantStub()
        self.dequant = DeQuantStub()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=256, kernel_size=1)
        self.batchnorm = nn.BatchNorm2d(256)
        self.relu = nn.ReLU()
        self.conv2 = nn.Conv2d(in_channels=256, out_channels=60, kernel_size=1)

    def forward(self, x):
        x = self.quant(x)
        x = self.conv1(x)
        x = self.batchnorm(x)
        x = self.relu(x)
        x = self.conv2(x)
        x = x.permute(0,2,3,1)
        x = self.dequant(x)
        return x

example_input = torch.randn(8, 1, 1, 160)
model = SmallModel()
output = model(example_input)

进行工具链量化转换后，输出 conv 情况如下图：

Description

尾部 conv 输出 layout 符合预期。

尾部 conv 输出 int16，不符合预期。原因是：在模型中，只有 conv 与 dequant 直接相连，conv 才会是 int32。

怎么实现 conv int32 + NHWC 输出呢？

正确示范

class SmallModel(nn.Module):
    def __init__(self):
        super(SmallModel, self).__init__()
        self.quant = QuantStub()
        self.dequant = DeQuantStub()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=256, kernel_size=1)
        self.batchnorm = nn.BatchNorm2d(256)
        self.relu = nn.ReLU()
        self.conv2 = nn.Conv2d(in_channels=256, out_channels=60, kernel_size=1)

    def forward(self, x):
        x = self.quant(x)
        x = self.conv1(x)
        x = self.batchnorm(x)
        x = self.relu(x)
        x = self.conv2(x)
        x = self.dequant(x)
        x = x.permute(0,2,3,1)
        return x

example_input = torch.randn(8, 1, 1, 160)
model = SmallModel()
output = model(example_input)

在 dequant 后面加 permute 即可实现 conv int32 + NHWC 输出。

Description

3. 什么时候 scale 为 1

在第 2 节中的示例，正常走工具链搭建 QAT 的流程，一般情况下，都不会出现 scale 为 1 的情况，如下图示例：箭头指向的位置都是 scale 的数值。

Description

什么时候 scale 会是 1 呢？首先要来了解 scale=1 是在什么时候生成的：在 prepare 初始化模型的时候，scale 为 1，举个例子，看 scale 的变化

calib_model = prepare(model.eval(), example_input, calibration_8bit_weight_16bit_act_qconfig_setter)
print("calib_model:", calib_model)        # scale均为1

calib_model.eval()
set_fake_quantize(calib_model, FakeQuantState.CALIBRATION)
print("calib_model:", calib_model)        # scale均为1
calib_model(example_input)

calib_model.eval()                            
print("calib_model:", calib_model)        # scale不为1
set_fake_quantize(calib_model, FakeQuantState.VALIDATION)
calib_out = calib_model(example_input)
print("calib_model:", calib_model)        # scale不为1

qat_bc = export(calib_model, example_input)

根据上述代码，沿着这个线索来分析 scale 为 1 的可能原因。

没校准，直接 export 导出 bc 文件

在进行模型编译时，采用 prepare 后加载权重的方式，若权重中的 scale 为 1，则编译时 scale 也为 1

在进行模型编译时，采用 prepare 后加载权重的方式，加载权重时，部分位置的权重没加载进去，这部分 scale 就会是 1

scale 为 1 一定就是错的吗？其实不一定，只能说大部分是错的。判断 scale=1 正确与否，跑一下模型推理，看结果是否正确即可～

4. 典型问题

问题描述：qat 模型精度正常，export 后的 qat.bc 精度不正常，且在 convert+compile 后发现，部分 conv 输出 scale 为 1，量化类型为 int16。

Description

最终原因：训练 qat 结束保存权重时，网络某输出结构为：

        x = self.conv2(x)
        x = self.dequant(x)

为了适配板端部署 layout 要求，直接修改该输出结构为：

        x = self.conv2(x)
        x = x.permute(0,2,3,1)
        x = self.dequant(x)

并加载了之前训练的权重，且未关注 miss key/unexpected key，此时会出现部分 conv 输出 scale 为 1，量化类型为 int16 的问题。

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：算法 自动驾驶 算法工具链 地平线 征程5

曲面显示屏取代传统汽车挡风玻璃

如果某行业 “汽车用户界面” 工作组的提案得以推行，经典的透明玻璃汽车挡风玻璃或将成为历史。取而代之的并非标准的纯被动透视玻璃，而是一块大型曲面显示屏，以电子方式向驾驶员和乘客呈现多个 “画面分区”。中间区域面积最大，显...

汽车电子挡风玻璃曲面显示屏自动驾驶 2026-04-08

携手ADI赢得未来

从自动驾驶到医疗健康，我们的客户能够利用相关数据和核心见解展开创新。我们将现实世界转化为可操作的见解，从而不断推动客户实现行业变革。...

视频 ADI 自动驾驶医疗健康 2019-11-08

实时训练驾驶人工智能

自动驾驶是物理 AI 领域难度最高的问题之一。自动驾驶系统必须实时解读混乱、动态变化的环境，应对不确定性、预测人类行为，并在海量场景与极端工况下安全运行。在通用汽车，我们的出发点很简单：道路上绝大多数场景都是可预测的，但...

汽车电子自动驾驶物理 AI 多智能体强化学习模拟器 GM 2026-03-31

PID算法

PID算法...

资源下载 PID 算法误差 2007-02-16

基于LPC2138的血压测量算法开发平台电路图

设计方案基于 LPC2138 血压测量算法开发平台电路图 2010-01-20

自动驾驶的现状与未来（节选）

在本节选视频中，ADI公司自动交通和汽车安全副总裁Chris Jacobs探讨自动驾驶的现状和未来，及其对社会的影响。...

视频 ADI 自动驾驶 2020-03-16

数字PID控制算法之一

数字PID控制算法之一...

资源下载 PID PID控制算法 2007-12-28

有关指纹算法

wsf999 2004-08-06

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

奥斯特（Ouster）正式推出Rev8 OS 数字激光雷达传感器系列，该产品基于公司自研 L4 级 Ouster Silicon 芯片架构打造，面向自动驾驶、机器人、智能基建及工业感知场景。新品系列首次搭载原生彩色激光雷...

汽车电子自动驾驶机器人 2026-05-13

求FSK信号的解调算法，主要是铁路上的移频信号!

dhlwq007 2004-08-04

高阶智驾要落地，线控底盘为什么必须执行得准

高阶智驾继续落地后，车辆不能只依赖感知和决策，线控转向、线控制动和主动悬架等底盘执行系统也要更准、更稳。本文结合 Allegro 在线控底盘、48V、传感器、电机驱动、电源管理和功能安全方面的分享，分析底盘电子化对汽车半...

汽车电子线控底盘智能底盘 Allegro 汽车电子 48V 功能安全电流传感器位置传感器电机驱动电源管理自动驾驶线控制动线控转向 2026-05-09

加密算法之MD5算法

加密算法之MD5算法...

资源下载加密算法加密算法 MD5算法 2007-02-16

CRC算法原理及C语言实现

本文从理论上推导出CRC算法实现原理，给出三种分别适应不同计算机或微控制器硬件环境的C语言程序。读者更能根据本算法原理，用不同的语言编写出独特风格更加实用的CRC计算程序。...

资源下载 CRC 算法 C语言 2007-02-16

目标跟踪算法在红外热成像跟踪技术上的应用

设计方案目标跟踪算法红外成像技术上应用 2009-09-03

76-81GHz自动驾驶CMOS RADAR

查看我们创新型高度集成式28nm CMOS RADAR雷达解决方案的系统级演示，该方案将角分辨率指数级升高，以支持面向OEM、一级厂商、创业公司和颠覆性初创公司的高度自动化的驾驶应用。了解有关汽车解决方案的更多信息...

视频 ADI 自动驾驶 CMOS RADAR 2018-05-31

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

设计方案采用 Mean-Shift Camshift 算法相结合 2011-06-27

自动驾驶正推动汽车行业加速布局人形机器人

自动驾驶技术研发积累与机器人领域高度契合，行业高管预计，到本世纪末，相关市场规模有望突破1000 亿美元。若机器人革命真的到来 —— 许多人对此深信不疑 —— 汽车行业大概率会成为这场变革的核心力量。得益于人工智能技术进...

机器人自动驾驶汽车行业人形机器人 2026-04-17

地平线征程 6 系列集成 Cadence Tensilica Vision DSP，实现规模化量产，合作加速智能驾驶解决方案部署

近日，楷登电子 Cadence 宣布，地平线征程® 6（J6）已成功将 Tensilica Vision DSP 集成至其系统级芯片中，并实现了规模化量产。Cadence Tensilica 将为搭载地平线 J6 系列的...

汽车电子地平线征程 6 Cadence Tensilica Vision DSP 2026-05-13

掘金自动驾驶，不要把大坑当机会

天下熙熙，皆为利来，天下攘攘，皆为利往。追求财富是现代人类的永恒主题，而股市正是快速获得财富（也是快速破产）的途径之一。虽说追热点死得快，但是，前赴后继的韭菜们依然乐此不疲地追逐着新的热点，幻想着一夜暴富的奇迹。25年年...

汽车电子自动驾驶 2026-04-17

面向算法硬件加速的FPGA实现方法

当开发者想要榨干某一算法的极限性能、且软件优化手段已全部用尽时，可以通过软硬件功能重新划分对任务进行硬件加速。借助 FPGA，无需更换处理器、也无需改动电路板级设计，就能轻松将软件模块替换为硬件模块。本文将讲解如何利用 ...

嵌入式系统算法硬件加速 FPGA 2026-04-30

ADI：传感技术助力未来自动驾驶的发展

ADI公司自动驾驶和汽车安全部副总裁Chris Jacobs介绍ADI的传感技术如何助力未来自动驾驶的发展，以及自动驾驶技术如何造福社会和挽救生命。...

视频 ADI 自动驾驶 2020-03-16

加快实现自动驾驶（完整小组讨论）

汽车行业正在经历数字化转型，需要处理自动驾驶化方面极为复杂的创新。观看专家小组讨论的视频，其中包括ADI公司自动驾驶和安全事业部副总裁Chris Jacobs。...

视频 ADI 自动驾驶 2020-06-12

计算机科学与技术反思录(2)

liujt_ic 2003-06-06

简单实用的单片机CRC 快速算法

提供两个实用的、能够在单片机上通过软件来实现的CRC 快速算法，其中一个适用于51 系列等单片机，另一个适用于PIC 单片机，这两种算法十分简单快捷。...

资源下载 CRC 算法单片机 2007-02-16

[转帖]us/os就绪表的维护算法分析

amine 2002-05-17

vxwokrs下静态图像压缩算法（上）

C-- 2004-07-26

数字PID控制及其改进算法的应用

设计方案数字控制及其改进算法应用 2011-05-11

2035年自动驾驶出租车市场规模将达1680亿美元

据 Counterpoint Research 最新发布的《全球自动驾驶出租车车辆销售及服务市场预测报告》显示，到 2035 年，全球自动驾驶出租车市场规模预计将达到 1680 亿美元。Counterpoint Rese...

汽车电子自动驾驶 2026-04-21

无线传感器网络低功耗分簇路由算法设计

设计方案无线传感器网络功耗路由算法设计 2012-09-07

恩智浦第三代雷达收发器助力高性能成像雷达规模量产，赋能L2+至L4级自动驾驶

采用RFCMOS工艺的汽车雷达收发器，集成8个发射通道和8个接收通道，助力实现多达576个天线通道的新一代成像雷达传感器，全面服务高级驾驶辅助系统（ADAS）和自动驾驶应用。最新动态恩智浦半导体（NXP Se...

汽车电子恩智浦雷达收发器成像雷达自动驾驶 2026-03-27

更多 培训课堂

更多焦点

更多视频

专栏中心

征程 6｜部署模型尾部 conv 输出 type/layout/scale 解读

相关推荐

曲面显示屏取代传统汽车挡风玻璃

携手ADI赢得未来

实时训练驾驶人工智能

PID算法

基于LPC2138的血压测量算法开发平台电路图

自动驾驶的现状与未来（节选）

数字PID控制算法之一

有关指纹算法

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

求FSK信号的解调算法，主要是铁路上的移频信号!

高阶智驾要落地，线控底盘为什么必须执行得准

加密算法之MD5算法

CRC算法原理及C语言实现

目标跟踪算法在红外热成像跟踪技术上的应用

76-81GHz自动驾驶CMOS RADAR

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

自动驾驶正推动汽车行业加速布局人形机器人

地平线征程 6 系列集成 Cadence Tensilica Vision DSP，实现规模化量产，合作加速智能驾驶解决方案部署

掘金自动驾驶，不要把大坑当机会

面向算法硬件加速的FPGA实现方法

ADI：传感技术助力未来自动驾驶的发展

加快实现自动驾驶（完整小组讨论）

计算机科学与技术反思录(2)

简单实用的单片机CRC 快速算法

[转帖]us/os就绪表的维护算法分析

vxwokrs下静态图像压缩算法（上）

数字PID控制及其改进算法的应用

2035年自动驾驶出租车市场规模将达1680亿美元

无线传感器网络低功耗分簇路由算法设计

恩智浦第三代雷达收发器助力高性能成像雷达规模量产，赋能L2+至L4级自动驾驶

技术专区