专栏中心

EEPW首页 > 专栏 > mul 与 reduce_sum 的优化实例

mul 与 reduce_sum 的优化实例

发布人：地平线开发者时间：2025-10-31 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

一、基础介绍

什么是 mul 与 reduce_sum？

mul 通常指元素级乘法（Element-wise Multiplication），它将两个形状相同的张量中对应位置的元素相乘，返回一个与原张量形状相同的新张量。

reduce_sum 是一种规约操作（Reduction Operation），它沿指定维度对张量的元素求和，从而 “压缩” 或 “减少” 张量的维度。如果不指定维度，则对所有元素求和，返回一个标量。

二、baseline 结构

onnx 可视化图如下：

对应代码如下：

class CustomNet(nn.Module):
    def __init__(self):
        super(CustomNet, self).__init__()

    def forward(self, a, b):
        # a: shape (1, 500, 7, 4, 13, 8)
        # b: shape (1, 500, 7, 4, 13, 256)
        # Step 1: Unsqueeze a -> (1, 500, 7, 4, 13, 8, 1)
        a = a.unsqueeze(-1)
        # Step 2: Reshape b -> (1, 500, 7, 4, 13, 8, 32)
        b = b.view(1, 500, 7, 4, 13, 8, 32)
        # Step 3: Mul (broadcast over last dim)
        out = a * b  # shape: (1, 500, 7, 4, 13, 8, 32)
        # # Step 4: ReduceSum over dim=2 (index 2 = 7 dim)
        out = out.sum(dim=2)  # shape: (1, 500, 4, 13, 8, 32)
        # # Step 5: ReduceSum over dim=1 (500 dim)
        out = out.sum(dim=1)  # shape: (1, 4, 13, 8, 32)
        # Step 6: Reshape to final output
        out = out.view(-1, 13, 8, 32)  # 可根据需要调整最终输出 shape
        return out
        
a = torch.randn(1, 500, 7, 4, 13, 8)
b = torch.randn(1, 500, 7, 4, 13, 256)
model = CustomNet()
output = model(a, b)

在征程 6M 上进行简单的模型编译与性能预估：

hb_compile -m mymodel.onnx --march nash-m --fast-perf

根据产出物得到预估 latency：2.97 ms

这个结构如何进行优化呢？

三、合并 reduce_sum

# Step 4: ReduceSum over dim=2 (index 2 = 7 dim)
out = out.sum(dim=2)  # shape: (1, 500, 4, 13, 8, 32)

# Step 5: ReduceSum over dim=1 (500 dim)
out = out.sum(dim=1)  # shape: (1, 4, 13, 8, 32)

这两个 reducesum 能合并成一个，使用 dim=（1， 2）（即同时对 dim=1 和 dim=2 做 sum），前提是这两个维度的求和没有先后顺序依赖（即两个维度是独立的）

out = out.sum(dim=(1, 2))  # 一次性对 dim=1 和 dim=2 求和

PyTorch 中。sum（dim=（1， 2））会按照给出的维度一次性执行 sum 操作，等价于逐个做 dim=2 然后 dim=1，因为 sum 是可交换的操作，最终结果形状完全相同。

优化后结构如下，可以看到确实少了一个 reducesum：

预估 latency: 1.75 ms

四、mul+reducesum 变成 conv

假设有两个张量：

a.shape = (B, C, H, W)
b.shape = (B, C, H, W)

常见操作是：

out = (a * b).sum(dim=[2, 3])  # 在 H 和 W 上求和，输出 shape: (B, C)

# ----------细节---------------
import torch
import torch.nn as nn
a = torch.randn(1, 3, 8, 4) # 多维时，a的最后一维若与b不同，则只能是1，否则不能进行广播
b = torch.randn(1, 3, 8, 4)
c = a * b               # c的shape：torch.Size([1, 3, 8, 4])
d = c.sum(dim=[2,3])    # d的shape：torch.Size([1, 3])

注意：torch 中 a * b 是逐元素相乘（mul），而不是矩阵乘法（matmul），形状不匹配时会触发广播（复制对应列 or 行）

通过深度卷积（depthwise convolution）可以近似实现 Mul + ReduceSum 操作，等价的 Conv2d 实现方式，可以用 groups=B*C 的 conv2d 来实现上述操作：

import torch
import torch.nn.functional as F

def conv_approx_mul_reducesum(a, b):
    B, C, H, W = a.shape

    # 把 b 变成卷积核，作为每个通道的 filter
    kernel = b.reshape(B * C, 1, H, W)

    # 输入 reshape 成 (1, B*C, H, W)
    input_ = a.reshape(1, B * C, H, W)

    # 深度卷积实现 mul+sum，输出 shape: (1, B*C, 1, 1)
    output = F.conv2d(input_, kernel, groups=B * C)

    # reshape 回 (B, C)
    return output.reshape(B, C)

conv2d 的过程是：

对每个通道进行乘法（卷积）
然后在 kernel 区域内求和

所以 F.conv2d（a， b， groups=B*C）本质就是：对 a 和 b 逐元素相乘再求和 = Mul + ReduceSum

一致性验证：

import torch
import torch.nn as nn
import torch.nn.functional as F

a = torch.randn(1, 3, 8, 4) # 多维时，a的最后一维若与b不同，则只能是1，否则不能进行广播
b = torch.randn(1, 3, 8, 4)
c = a * b               # c的shape：torch.Size([1, 3, 8, 4])
d = c.sum(dim=[2,3])    # d的shape：torch.Size([1, 3])
print(d)


def F_conv2d_approx_mul_reducesum(a, b):
    B, C, H, W = a.shape

    # 把 b 变成卷积核，作为每个通道的 filter
    kernel = b.reshape(B * C, 1, H, W)

    # 输入 reshape 成 (1, B*C, H, W)
    input_ = a.reshape(1, B * C, H, W)

    # 深度卷积实现 mul+sum，输出 shape: (1, B*C, 1, 1)
    output = F.conv2d(input_, kernel, groups=B * C)

    # reshape 回 (B, C)
    return output.reshape(B, C)
print(F_conv2d_approx_mul_reducesum(a,b))


def nn_conv2d_approx_mul_reducesum(a, b):
    B, C, H, W = a.shape

    # 把 b 变成卷积核，作为每个通道的 filter
    kernel = b.reshape(B * C, 1, H, W)

    # 输入 reshape 成 (1, B*C, H, W)
    input_ = a.reshape(1, B * C, H, W)

    # 假设已有输入input_和卷积核kernel
    # kernel形状: (输出通道数, 输入通道数//groups, 核高, 核宽)
    # 例如：groups=B*C时，输入通道数需为groups的倍数
    out_channels = kernel.size(0)
    in_channels = kernel.size(1) * (B * C)  # 输入通道数 = 每组通道数 * groups
    kernel_size = (kernel.size(2), kernel.size(3))
    # 创建nn.Conv2d模块
    conv_layer = nn.Conv2d(
        in_channels=in_channels,
        out_channels=out_channels,
        kernel_size=kernel_size,
        groups=B * C,
        bias=False  # 若F.conv2d未用偏置
    )
    # 将预定义的kernel赋值给conv_layer的权重
    conv_layer.weight.data = kernel  # 注意：需确保kernel形状与nn.Conv2d的weight格式一致

    # 深度卷积实现 mul+sum，输出 shape: (1, B*C, 1, 1)
    output = conv_layer(input_)

    # reshape 回 (B, C)
    return output.reshape(B, C)
print(nn_conv2d_approx_mul_reducesum(a,b))

输出：

tensor([[-0.3991,  0.2382, -8.5925]])
tensor([[-0.3991,  0.2382, -8.5925]])
tensor([[-0.3991,  0.2382, -8.5925]], grad_fn=<ViewBackward0>)

可以看到，结果确实一样。

真正部署时，不太建议这么做，因为小尺寸没必要（快不了多少），大尺寸硬件不支持。

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：算法 自动驾驶 算法工具链 地平线 征程5

vxwokrs下静态图像压缩算法（上）

C-- 2004-07-26

目标跟踪算法在红外热成像跟踪技术上的应用

设计方案目标跟踪算法红外成像技术上应用 2009-09-03

ADI：传感技术助力未来自动驾驶的发展

ADI公司自动驾驶和汽车安全部副总裁Chris Jacobs介绍ADI的传感技术如何助力未来自动驾驶的发展，以及自动驾驶技术如何造福社会和挽救生命。...

视频 ADI 自动驾驶 2020-03-16

CRC算法原理及C语言实现

本文从理论上推导出CRC算法实现原理，给出三种分别适应不同计算机或微控制器硬件环境的C语言程序。读者更能根据本算法原理，用不同的语言编写出独特风格更加实用的CRC计算程序。...

资源下载 CRC 算法 C语言 2007-02-16

基于LPC2138的血压测量算法开发平台电路图

设计方案基于 LPC2138 血压测量算法开发平台电路图 2010-01-20

无线传感器网络低功耗分簇路由算法设计

设计方案无线传感器网络功耗路由算法设计 2012-09-07

高阶智驾要落地，线控底盘为什么必须执行得准

高阶智驾继续落地后，车辆不能只依赖感知和决策，线控转向、线控制动和主动悬架等底盘执行系统也要更准、更稳。本文结合 Allegro 在线控底盘、48V、传感器、电机驱动、电源管理和功能安全方面的分享，分析底盘电子化对汽车半...

汽车电子线控底盘智能底盘 Allegro 汽车电子 48V 功能安全电流传感器位置传感器电机驱动电源管理自动驾驶线控制动线控转向 2026-05-09

Ouster推出 Rev8 OS 激光雷达系列原生彩色激光雷达正式落地

奥斯特（Ouster）正式推出Rev8 OS 数字激光雷达传感器系列，该产品基于公司自研 L4 级 Ouster Silicon 芯片架构打造，面向自动驾驶、机器人、智能基建及工业感知场景。新品系列首次搭载原生彩色激光雷...

汽车电子自动驾驶机器人 2026-05-13

有关指纹算法

wsf999 2004-08-06

简单实用的单片机CRC 快速算法

提供两个实用的、能够在单片机上通过软件来实现的CRC 快速算法，其中一个适用于51 系列等单片机，另一个适用于PIC 单片机，这两种算法十分简单快捷。...

资源下载 CRC 算法单片机 2007-02-16

PID算法

PID算法...

资源下载 PID 算法误差 2007-02-16

76-81GHz自动驾驶CMOS RADAR

查看我们创新型高度集成式28nm CMOS RADAR雷达解决方案的系统级演示，该方案将角分辨率指数级升高，以支持面向OEM、一级厂商、创业公司和颠覆性初创公司的高度自动化的驾驶应用。了解有关汽车解决方案的更多信息...

视频 ADI 自动驾驶 CMOS RADAR 2018-05-31

自动驾驶正推动汽车行业加速布局人形机器人

自动驾驶技术研发积累与机器人领域高度契合，行业高管预计，到本世纪末，相关市场规模有望突破1000 亿美元。若机器人革命真的到来 —— 许多人对此深信不疑 —— 汽车行业大概率会成为这场变革的核心力量。得益于人工智能技术进...

机器人自动驾驶汽车行业人形机器人 2026-04-17

地平线征程 6 系列集成 Cadence Tensilica Vision DSP，实现规模化量产，合作加速智能驾驶解决方案部署

近日，楷登电子 Cadence 宣布，地平线征程® 6（J6）已成功将 Tensilica Vision DSP 集成至其系统级芯片中，并实现了规模化量产。Cadence Tensilica 将为搭载地平线 J6 系列的...

汽车电子地平线征程 6 Cadence Tensilica Vision DSP 2026-05-13

实时训练驾驶人工智能

自动驾驶是物理 AI 领域难度最高的问题之一。自动驾驶系统必须实时解读混乱、动态变化的环境，应对不确定性、预测人类行为，并在海量场景与极端工况下安全运行。在通用汽车，我们的出发点很简单：道路上绝大多数场景都是可预测的，但...

汽车电子自动驾驶物理 AI 多智能体强化学习模拟器 GM 2026-03-31

数字PID控制算法之一

数字PID控制算法之一...

资源下载 PID PID控制算法 2007-12-28

加密算法之MD5算法

加密算法之MD5算法...

资源下载加密算法加密算法 MD5算法 2007-02-16

计算机科学与技术反思录(2)

liujt_ic 2003-06-06

面向算法硬件加速的FPGA实现方法

当开发者想要榨干某一算法的极限性能、且软件优化手段已全部用尽时，可以通过软硬件功能重新划分对任务进行硬件加速。借助 FPGA，无需更换处理器、也无需改动电路板级设计，就能轻松将软件模块替换为硬件模块。本文将讲解如何利用 ...

嵌入式系统算法硬件加速 FPGA 2026-04-30

曲面显示屏取代传统汽车挡风玻璃

如果某行业 “汽车用户界面” 工作组的提案得以推行，经典的透明玻璃汽车挡风玻璃或将成为历史。取而代之的并非标准的纯被动透视玻璃，而是一块大型曲面显示屏，以电子方式向驾驶员和乘客呈现多个 “画面分区”。中间区域面积最大，显...

汽车电子挡风玻璃曲面显示屏自动驾驶 2026-04-08

携手ADI赢得未来

从自动驾驶到医疗健康，我们的客户能够利用相关数据和核心见解展开创新。我们将现实世界转化为可操作的见解，从而不断推动客户实现行业变革。...

视频 ADI 自动驾驶医疗健康 2019-11-08

2035年自动驾驶出租车市场规模将达1680亿美元

据 Counterpoint Research 最新发布的《全球自动驾驶出租车车辆销售及服务市场预测报告》显示，到 2035 年，全球自动驾驶出租车市场规模预计将达到 1680 亿美元。Counterpoint Rese...

汽车电子自动驾驶 2026-04-21

[转帖]us/os就绪表的维护算法分析

amine 2002-05-17

加快实现自动驾驶（完整小组讨论）

汽车行业正在经历数字化转型，需要处理自动驾驶化方面极为复杂的创新。观看专家小组讨论的视频，其中包括ADI公司自动驾驶和安全事业部副总裁Chris Jacobs。...

视频 ADI 自动驾驶 2020-06-12

掘金自动驾驶，不要把大坑当机会

天下熙熙，皆为利来，天下攘攘，皆为利往。追求财富是现代人类的永恒主题，而股市正是快速获得财富（也是快速破产）的途径之一。虽说追热点死得快，但是，前赴后继的韭菜们依然乐此不疲地追逐着新的热点，幻想着一夜暴富的奇迹。25年年...

汽车电子自动驾驶 2026-04-17

采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计

设计方案采用 Mean-Shift Camshift 算法相结合 2011-06-27

自动驾驶的现状与未来（节选）

在本节选视频中，ADI公司自动交通和汽车安全副总裁Chris Jacobs探讨自动驾驶的现状和未来，及其对社会的影响。...