一、PTQ 模型量化问题
1.1、模型问题
基于公版模型训练,没有对模型做范围做约束,weight_decay=1e-6, 训练出的 float 模型数值分布很大,如图 2,可以看到模型的后面几层数据分布范围很广,最大阈值超过了 8000,对我们量化来说并不友好。
1.2、算子问题
如图 2,基于全 int16 算子配置量化,当前版本 resize 算子有约束(请查阅工具链算子支持情况),只能支持 int8 量化,即使配置了 int16,但算子依旧退化到 int8,因此算子的 cosine 相似度也比较低,基于此阈值,max_qscale=6653/127=52.385,此 scale 过于大,并不能精细化量化模型,所以全 BPU 算子的整体精度都不高。
二、精度优化
2.1、cpu 高精度定位
resize 算子有限制,但对于回退 cpu 算子,就能实现 float 精度推理,配置如图 2,
配置了算子后,精度提升了,如图 3,可视化效果对比如图 4,整体量化精度可对齐,定位到了具体问题就是 resize 算子限制导致。
2.2、添加 bn,加大 weight_decay
在最后的 conv 层后加上 bn 算子限制特征数据分布,同时 weight_decay 从 1e-6 调整到 1e-3,整体数据范围如图 5、图 6,模型的数据分布变小了,最后的 cosine 相似度精度也很高,非常利于 int8 量化,后期配置了 int8 量化,模型也可实现高精度量化。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
76-81GHz自动驾驶CMOS RADAR
数字PID控制及其改进算法的应用
vxwokrs下静态图像压缩算法(上)
计算机科学与技术反思录(2)
自动驾驶的现状与未来(节选)
自动驾驶正推动汽车行业加速布局人形机器人
简单实用的单片机CRC 快速算法
PID算法
ADI:传感技术助力未来自动驾驶的发展
基于LPC2138的血压测量算法开发平台电路图
地平线征程 6 系列集成 Cadence Tensilica Vision DSP,实现规模化量产,合作加速智能驾驶解决方案部署
CRC算法原理及C语言实现
面向算法硬件加速的FPGA实现方法
实时训练驾驶人工智能
Ouster推出 Rev8 OS 激光雷达系列 原生彩色激光雷达正式落地
高阶智驾要落地,线控底盘为什么必须执行得准
求FSK信号的解调算法,主要是铁路上的移频信号!
2035年自动驾驶出租车市场规模将达1680亿美元
目标跟踪算法在红外热成像跟踪技术上的应用
掘金自动驾驶,不要把大坑当机会
携手ADI赢得未来
加密算法之MD5算法
恩智浦第三代雷达收发器助力高性能成像雷达规模量产,赋能L2+至L4级自动驾驶
采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计
数字PID控制算法之一
曲面显示屏取代传统汽车挡风玻璃
有关指纹算法
[转帖]us/os就绪表的维护算法分析
加快实现自动驾驶(完整小组讨论)
无线传感器网络低功耗分簇路由算法设计