专栏中心

EEPW首页 > 专栏 > 征程 6 | linear 高精度输出配置方式

征程 6 | linear 高精度输出配置方式

发布人：地平线开发者时间：2025-11-30 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

1. 常规情况

基础知识：

考虑到模型输出位置量化损失对模型精度的影响较大，工具链推荐模型以 linear/conv 结尾，此时支持高精度 int32 输出（在 quantized.onnx 中，转定点为 int32，在前面 calib+qat 阶段都是 float32），这几乎可以做到无损。
征程 6 工具链量化 setter 模板支持自动设置高精度输出，前提是 conv 输出直接接 dequant，不作为其他 node 的输入。

输出位置结构示意图：

全流程代码如下：

import torch
from horizon_plugin_pytorch import set_march, March
set_march(March.NASH_M)
from horizon_plugin_pytorch.quantization import prepare, set_fake_quantize, FakeQuantState
from horizon_plugin_pytorch.quantization import QuantStub
from horizon_plugin_pytorch.quantization.hbdk4 import export
from horizon_plugin_pytorch.quantization.qconfig_template import (
    calibration_8bit_weight_16bit_act_qconfig_setter,
    qat_8bit_weight_16bit_fixed_act_qconfig_setter, 
    default_calibration_qconfig_setter,
    ModuleNameQconfigSetter
) 

from horizon_plugin_pytorch.quantization.qconfig import get_qconfig, MSEObserver, MinMaxObserver
from horizon_plugin_pytorch.dtype import qint8, qint16
from torch.quantization import DeQuantStub
import torch.nn as nn
from horizon_plugin_pytorch.quantization import hbdk4 as hb4
from hbdk4.compiler import convert, save, hbm_perf, visualize, compile

import torch
import torch.nn as nn

# 定义网络结构
class SmallModel(nn.Module):
    def __init__(self):
        super(SmallModel, self).__init__()
        # 第一个 Linear: 输入 [2, 100, 256] -> 输出 [2, 100, 256]
        self.linear1 = nn.Linear(256, 256)
        self.layernorm = nn.LayerNorm(256)  # 对最后一维进行归一化
        self.relu = nn.ReLU()
        # 第二个 Linear: 输入 [2, 100, 256] -> 输出 [2, 100, 60]
        self.linear2 = nn.Linear(256, 60)
        # 第三个 Linear: 输入 [2, 100, 60] -> 输出 [2, 100, 60]
        self.linear3 = nn.Linear(60, 60)
        self.quant = QuantStub()
        self.dequant = DeQuantStub()

    def forward(self, x):
        x = self.quant(x)
        # 第一个 Linear
        x = self.linear1(x)  # [2, 100, 256]
        x = self.layernorm(x)  # [2, 100, 256]
        x = self.relu(x)  # [2, 100, 256]
        # 第二个 Linear
        y = self.linear2(x)  # [2, 100, 60]
        # 第三个 Linear
        z = self.linear3(y)
        z = self.dequant(z)
        return z

# 设置随机种子，保证每次生成的数据相同
torch.manual_seed(42)
example_input = torch.randn(2, 100, 256)
model = SmallModel()

# 前向传播
output_x = model(example_input)
print("输入形状:", example_input.shape)
print("输出形状:", output_x.shape)

# A global march indicating the target hardware version must be setted before prepare qat.
set_march(March.NASH_M)

calib_model = prepare(model.eval(), example_input, 
                      qconfig_setter=(
                          default_calibration_qconfig_setter,
                          ),
                      )

calib_model.eval()
set_fake_quantize(calib_model, FakeQuantState.CALIBRATION)
calib_model(example_input)

calib_model.eval()                            
set_fake_quantize(calib_model, FakeQuantState.VALIDATION)
calib_out_x = calib_model(example_input)
print("calib输出shape:", calib_out_x.shape)

qat_bc = export(calib_model, example_input)
# save(qat_bc, "qat.bc")
# visualize(qat_bc, "qat.onnx")
hb_quantized_model = convert(qat_bc, March.NASH_M)
# save(hb_quantized_model,"quantized.bc")
visualize(hb_quantized_model, "quantized_single.onnx")

查看 quantized.onnx，可以看到最后一个 conv 确实是 int32 高精度输出

2. 输出又输入

如果 conv1，既作为模型输出，又作为后续 conv2 的输入，此时应该怎么办？

关键代码如下：

def forward(self, x):
        x = self.quant(x)
        # 第一个 Linear
        x = self.linear1(x)  # [2, 100, 256]
        x = self.layernorm(x)  # [2, 100, 256]
        x = self.relu(x)  # [2, 100, 256]
        # 第二个 Linear
        y = self.linear2(x)  # [2, 100, 60]
        y_out = self.dequant(y)
        y = self.quant_out(y_out)
        # y = self.quant_out(y)

        # 第三个 Linear
        z = self.linear3(y)
        z = self.dequant(z)
        return x, y_out

注意，y_out = self.dequant（y）是必须要添加的，否则无法实现该效果。

全流程代码如下：

import torch
from horizon_plugin_pytorch import set_march, March
set_march(March.NASH_M)
from horizon_plugin_pytorch.quantization import prepare, set_fake_quantize, FakeQuantState
from horizon_plugin_pytorch.quantization import QuantStub
from horizon_plugin_pytorch.quantization.hbdk4 import export
from horizon_plugin_pytorch.quantization.qconfig_template import (
    calibration_8bit_weight_16bit_act_qconfig_setter,
    qat_8bit_weight_16bit_fixed_act_qconfig_setter, 
    default_calibration_qconfig_setter,
    ModuleNameQconfigSetter
) 

from horizon_plugin_pytorch.quantization.qconfig import get_qconfig, MSEObserver, MinMaxObserver
from horizon_plugin_pytorch.dtype import qint8, qint16
from torch.quantization import DeQuantStub
import torch.nn as nn
from horizon_plugin_pytorch.quantization import hbdk4 as hb4
from hbdk4.compiler import convert, save, hbm_perf, visualize, compile

import torch
import torch.nn as nn

# 定义网络结构
class SmallModel(nn.Module):
    def __init__(self):
        super(SmallModel, self).__init__()
        # 第一个 Linear: 输入 [2, 100, 256] -> 输出 [2, 100, 256]
        self.linear1 = nn.Linear(256, 256)
        self.layernorm = nn.LayerNorm(256)  # 对最后一维进行归一化
        self.relu = nn.ReLU()
        # 第二个 Linear: 输入 [2, 100, 256] -> 输出 [2, 100, 60]
        self.linear2 = nn.Linear(256, 60)
        # 第三个 Linear: 输入 [2, 100, 60] -> 输出 [2, 100, 60]
        self.linear3 = nn.Linear(60, 60)
        self.quant = QuantStub()
        self.quant_out = QuantStub()
        self.dequant = DeQuantStub()

    def forward(self, x):
        x = self.quant(x)
        # 第一个 Linear
        x = self.linear1(x)  # [2, 100, 256]
        x = self.layernorm(x)  # [2, 100, 256]
        x = self.relu(x)  # [2, 100, 256]
        # 第二个 Linear
        y = self.linear2(x)  # [2, 100, 60]
        y_out = self.dequant(y)
        y = self.quant_out(y_out)

        # 第三个 Linear
        z = self.linear3(y)
        z = self.dequant(z)
        return z, y_out

# 设置随机种子，保证每次生成的数据相同
torch.manual_seed(42)
example_input = torch.randn(2, 100, 256)
model = SmallModel()

# 前向传播
output_x, output_y = model(example_input)
print("输入形状:", example_input.shape)
print("输出形状:", output_x.shape, output_y.shape)

# A global march indicating the target hardware version must be setted before prepare qat.
set_march(March.NASH_M)

calib_model = prepare(model.eval(), example_input, 
                      qconfig_setter=(
                          default_calibration_qconfig_setter,
                          ),
                      )

calib_model.eval()
set_fake_quantize(calib_model, FakeQuantState.CALIBRATION)
calib_model(example_input)

calib_model.eval()                            
set_fake_quantize(calib_model, FakeQuantState.VALIDATION)
calib_out_x, calib_out_y= calib_model(example_input)
print("calib输出shape:", calib_out_x.shape)

qat_bc = export(calib_model, example_input)
# save(qat_bc, "qat.bc")
# visualize(qat_bc, "qat.onnx")
hb_quantized_model = convert(qat_bc, March.NASH_M)
# save(hb_quantized_model,"quantized.bc")
visualize(hb_quantized_model, "quantized.onnx")

查看 quantized.onnx，linear2 符合预期，确实是 int32 高精度输出。

新加入的 dequant 与 quant 会变成 rescale

以上是征程 6EM 的默认做法，如果使用的是征程 6PH，conv like 算子输出直接就是 float32，在既作为输出，又作为下一阶段输入时，会存在 vpu 的 quantize（float32->int16/int8），如下图所示

如果想依旧沿用征程 6EM 的方式，可进行如下配置：

qat_bc._integer_conv = True
hb_quantized_model = convert(qat_bc, "nash-h")

具体选择哪种方式可实测 latency（建议考虑将模型 conv like 算子 c++ 反量化的耗时减少也加进去对比）

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：算法 自动驾驶 算法工具链 地平线 征程5

自动驾驶正推动汽车行业加速布局人形机器人

自动驾驶技术研发积累与机器人领域高度契合，行业高管预计，到本世纪末，相关市场规模有望突破1000 亿美元。若机器人革命真的到来 —— 许多人对此深信不疑 —— 汽车行业大概率会成为这场变革的核心力量。得益于人工智能技术进...

机器人自动驾驶汽车行业人形机器人 2026-04-17

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

奥斯特（Ouster）正式推出Rev8 OS 数字激光雷达传感器系列，该产品基于公司自研 L4 级 Ouster Silicon 芯片架构打造，面向自动驾驶、机器人、智能基建及工业感知场景。新品系列首次搭载原生彩色激光雷...

汽车电子自动驾驶机器人 2026-05-13

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

设计方案采用 Mean-Shift Camshift 算法相结合 2011-06-27

地平线征程 6 系列集成 Cadence Tensilica Vision DSP，实现规模化量产，合作加速智能驾驶解决方案部署

近日，楷登电子 Cadence 宣布，地平线征程® 6（J6）已成功将 Tensilica Vision DSP 集成至其系统级芯片中，并实现了规模化量产。Cadence Tensilica 将为搭载地平线 J6 系列的...

汽车电子地平线征程 6 Cadence Tensilica Vision DSP 2026-05-13

目标跟踪算法在红外热成像跟踪技术上的应用

设计方案目标跟踪算法红外成像技术上应用 2009-09-03

ADI：传感技术助力未来自动驾驶的发展

ADI公司自动驾驶和汽车安全部副总裁Chris Jacobs介绍ADI的传感技术如何助力未来自动驾驶的发展，以及自动驾驶技术如何造福社会和挽救生命。...

视频 ADI 自动驾驶 2020-03-16

PID算法

PID算法...

资源下载 PID 算法误差 2007-02-16

[转帖]us/os就绪表的维护算法分析

amine 2002-05-17

有关指纹算法

wsf999 2004-08-06

无线传感器网络低功耗分簇路由算法设计

设计方案无线传感器网络功耗路由算法设计 2012-09-07

数字PID控制算法之一

数字PID控制算法之一...

资源下载 PID PID控制算法 2007-12-28

数字PID控制及其改进算法的应用

设计方案数字控制及其改进算法应用 2011-05-11

加快实现自动驾驶（完整小组讨论）

汽车行业正在经历数字化转型，需要处理自动驾驶化方面极为复杂的创新。观看专家小组讨论的视频，其中包括ADI公司自动驾驶和安全事业部副总裁Chris Jacobs。...

视频 ADI 自动驾驶 2020-06-12

2035年自动驾驶出租车市场规模将达1680亿美元

据 Counterpoint Research 最新发布的《全球自动驾驶出租车车辆销售及服务市场预测报告》显示，到 2035 年，全球自动驾驶出租车市场规模预计将达到 1680 亿美元。Counterpoint Rese...

汽车电子自动驾驶 2026-04-21

曲面显示屏取代传统汽车挡风玻璃

如果某行业 “汽车用户界面” 工作组的提案得以推行，经典的透明玻璃汽车挡风玻璃或将成为历史。取而代之的并非标准的纯被动透视玻璃，而是一块大型曲面显示屏，以电子方式向驾驶员和乘客呈现多个 “画面分区”。中间区域面积最大，显...

汽车电子挡风玻璃曲面显示屏自动驾驶 2026-04-08

特斯拉监督版FSD加入中国市场

5月21日，特斯拉官方宣布监督版FSD的最新布局，其中提到监督版FSD可以在中国使用。根据特斯拉官方定义，FSD Supervised（监督式全自动驾驶）在驾驶员的持续监督下工作，驾驶员需随时准备接管。其核心技术采用“端...

特斯拉 FSD 自动驾驶 2026-05-22

加密算法之MD5算法

加密算法之MD5算法...

资源下载加密算法加密算法 MD5算法 2007-02-16

掘金自动驾驶，不要把大坑当机会

天下熙熙，皆为利来，天下攘攘，皆为利往。追求财富是现代人类的永恒主题，而股市正是快速获得财富（也是快速破产）的途径之一。虽说追热点死得快，但是，前赴后继的韭菜们依然乐此不疲地追逐着新的热点，幻想着一夜暴富的奇迹。25年年...

汽车电子自动驾驶 2026-04-17

高阶智驾要落地，线控底盘为什么必须执行得准

高阶智驾继续落地后，车辆不能只依赖感知和决策，线控转向、线控制动和主动悬架等底盘执行系统也要更准、更稳。本文结合 Allegro 在线控底盘、48V、传感器、电机驱动、电源管理和功能安全方面的分享，分析底盘电子化对汽车半...

汽车电子线控底盘智能底盘 Allegro 汽车电子 48V 功能安全电流传感器位置传感器电机驱动电源管理自动驾驶线控制动线控转向 2026-05-09

76-81GHz自动驾驶CMOS RADAR

查看我们创新型高度集成式28nm CMOS RADAR雷达解决方案的系统级演示，该方案将角分辨率指数级升高，以支持面向OEM、一级厂商、创业公司和颠覆性初创公司的高度自动化的驾驶应用。了解有关汽车解决方案的更多信息...

视频 ADI 自动驾驶 CMOS RADAR 2018-05-31

CRC算法原理及C语言实现

本文从理论上推导出CRC算法实现原理，给出三种分别适应不同计算机或微控制器硬件环境的C语言程序。读者更能根据本算法原理，用不同的语言编写出独特风格更加实用的CRC计算程序。...

资源下载 CRC 算法 C语言 2007-02-16

求FSK信号的解调算法，主要是铁路上的移频信号!

dhlwq007 2004-08-04

实时训练驾驶人工智能

自动驾驶是物理 AI 领域难度最高的问题之一。自动驾驶系统必须实时解读混乱、动态变化的环境，应对不确定性、预测人类行为，并在海量场景与极端工况下安全运行。在通用汽车，我们的出发点很简单：道路上绝大多数场景都是可预测的，但...

汽车电子自动驾驶物理 AI 多智能体强化学习模拟器 GM 2026-03-31

面向算法硬件加速的FPGA实现方法

当开发者想要榨干某一算法的极限性能、且软件优化手段已全部用尽时，可以通过软硬件功能重新划分对任务进行硬件加速。借助 FPGA，无需更换处理器、也无需改动电路板级设计，就能轻松将软件模块替换为硬件模块。本文将讲解如何利用 ...

嵌入式系统算法硬件加速 FPGA 2026-04-30

vxwokrs下静态图像压缩算法（上）

C-- 2004-07-26

基于LPC2138的血压测量算法开发平台电路图

设计方案基于 LPC2138 血压测量算法开发平台电路图 2010-01-20

计算机科学与技术反思录(2)

liujt_ic 2003-06-06

自动驾驶的现状与未来（节选）

在本节选视频中，ADI公司自动交通和汽车安全副总裁Chris Jacobs探讨自动驾驶的现状和未来，及其对社会的影响。...