专栏中心

EEPW首页 > 专栏 > GPU底层优化 | 如何让Transformer在GPU上跑得更快？

GPU底层优化 | 如何让Transformer在GPU上跑得更快？

发布人：CV研究院时间：2021-02-08 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

Transformer 对计算和存储的高要求阻碍了其在 GPU 上的大规模部署。在本文中，来自快手异构计算团队的研究者分享了如何在 GPU 上实现基于 Transformer 架构的 AI 模型的极限加速，介绍了算子融合重构、混合精度量化、先进内存管理、Input Padding 移除以及 GEMM 配置等优化方法。

图 1：基于 Transformer 架构的 NLP 模型规模

图 2：基于 Transformer 架构的应用

图 3：Transformer 模型的架构

图 4：Beam Search Decoding (Decoder + Beam Search) 流程图

Transformer 家族模型

根据具体模型架构和应用的不同，研究者将 Transformer 家族的模型分为四大类（如图 5）：

图 5：经典的基于 Transformer 结构的 AI 模型

图 6：Transformer 架构中 Self-attention 和 Feedforward 模块的 CUDA kernel 融合和重构，参见[14]

图 7：Transformer FP16 版本的几个关键 CUDA kernel 采用的量化精度

图 8：Transformer CUDA 实现的内存管理

图 9：输入 Padding 移除的方案 - 通过引入 Offset Mask，移除 Padding 的 Sequence 和原始的 Sequence 可以互相转换重建

图 10：通过对 CUDA Kernel 的分类判断是否可以移除 Padding

图 11：Transformer GEMM 配置的优化

总结

参考文献

[1] M. Luong et al, Effective Approaches to Attention-based Neural Machine Translation, arXiv:1508.04025v5 (2015).

[2] A. Vaswani et al. Attention is all you need, Advances in neural information processing systems (2017).

[3] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv:1810.04805 (2018).

[4] A. Radford et al. Language Models are Unsupervised Multitask Learners, 2019.

[5] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

[6] C. Raffe et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, arXiv:1910.10683v3 (2019).

[7] T. Brown et al, Language Models are Few-Shot Learners, arXiv: 2005.14165v4 (2020).

[8] N. Carion et al, End-to-End Object Detection with Transformers, arXiv: 2005.12872 (2020).

[9] M. Chen et al, Generative Pretraining from Pixels, ICML (2020).

[10] F. Yang et al, Learning Texture Transformer Network for Image Super-Resolution, CVPR (2020).

[11] D. Zhang et al, Feature Pyramid Transformer, ECCV (2020).

[12] Y. Zhao et al, The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition. ICASSP 2019.

[13] A. Gulati et al, Conformer: Convolution-augmented Transformer for Speech Recognition, arXiv:2005.08100v1 (2020).

[14] https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词：

相关推荐

FPGA 在高速 AI 时代找到新的工作负载

在人工智能、高速无线通信、医疗与生命科学技术，以及复杂芯片架构的时代，FPGA 正在找到新的应用场景，在这些领域中，它们可以改善数据流动。现场可编程门阵列（FPGAs）使设计人员能够在芯片部署之后对数字逻辑进行重新编程或...

嵌入式系统 2025-12-22

PI电源设计软件

PI电源设计软件...

资源下载 Power Integrations 电源设计软件 2007-02-09

提供EDA IC设计工具和部分IC经典图书！！

jasperxxx 2004-08-12

提供EDA IC设计工具和部分IC经典图书！！

jasperxxx 2004-08-12

电网级的泡泡电池很快就会普及

这座位于撒丁岛上的巨型 “气泡”，内部储存着 2000 吨二氧化碳。但这些气体并非捕集自工厂排放或直接从空气中提取，而是购自专业气体供应商，并被永久密封在穹顶系统内，肩负着一项环保使命：将可再生能源产生的大量富余电力储存...

电源与新能源二氧化碳电池储能 2025-12-22

MAX5003隔离电源设计软件(Maxim)

MAX5003隔离电源设计软件(Maxim)...

资源下载 Maxim 电源隔离电源设计软件 MAX5003 2007-02-09

数控车床自动加工视频

数控车床自动加工视频...

视频工业控制数控车床 2010-01-15

555汽车雨刷自动控制器电路

设计方案汽车雨刷自动控制器 2009-07-06

我们会在看到通用人工智能时认出它吗？

人工智能领域的流行词可以是技术性的：感知器、卷积、变换器。这些指的是特定的计算方法。一个最近的术语听起来更平凡，但却具有革命性的含义：时间线。问问人工智能领域的人他们的时间表，他们会告诉你他们预计何时出现通用人工智能（A...

智能计算人工智能 2025-12-22

这个AI能在石头剪刀布上打败你：储层计算芯片提供快速且低功耗的预测

石头剪刀布常常是心理、反向心理学、反向反向心理和运气的游戏。但如果电脑能足够理解你，每次都能赢呢？北海道大学和以磁带闻名的TDK公司（均位于日本）的团队设计了一款能够实现这一功能的芯片。好吧，芯片不会读你的心思。它使用放...

智能计算人工智能计算芯片 2025-12-22

555摩托车前灯调变器电路

设计方案摩托车前灯调变 2009-07-06

sst39vf160已经停产，可以用39vf1601替代吗？

flyingbxf 2004-08-12

MAX274滤波设计软件(Maxim)

MAX274滤波设计软件...

资源下载 Maxim 滤波器设计软件 MAX274 2007-02-09

555摩托车测速显示报警器电路

设计方案摩托车测速显示报警器 2009-07-06

美国计划自1970年代以来最大规模的核能项目

美国计划启动自1970年代以来最活跃的新核建设项目。在迄今为止最昂贵的核协议中，特朗普政府于十月启动了一项合作关系，计划建设至少价值800亿美元的新大型核反应堆，并选择了西屋电气公司及其共同所有者布鲁克菲尔德资产管理公司...

国际视野核能核反应堆核电 2025-12-22

ispDesignEXPERT System 培训教程

ispDesignEXPERT System 培训教程...

资源下载 ispDesignEXPERT System VHDL Verilog HDL Abel 2007-02-09

现代化交流电网以实现未来稳定

我们当前使用的电网始建于约一个世纪前，其设计架构围绕大型集中式能源展开，依赖水力、核能、煤炭及天然气发电厂中的重型旋转发电机供电（见图 1）。这类发电厂属于大型基础设施工程，从建设到投运需耗时 10-15 年，因此新增发...

电源与新能源电网可再生能源分布式能源资源 2025-12-22

环境能源管理器处理两种能量收集源

E-PEAS在能源管理领域已经有一段时间了，其最新AEM19320突破了界限，同时支持两个能源收集子系统（见图）。这些能源来源可能相似，比如演示中使用的两种不同太阳能电池或其他类型的能量收集技术。E-PEAS的AEM13...

电源与新能源能源管理能量收集环境能源 2025-12-22

虚拟同步机可以帮助稳定电网

西班牙电网运营商Red Eléctrica自豪地宣布，2025年4月16日工作日，全国半岛系统的电力需求首次完全由可再生能源满足。仅仅12天后，即4月28日星期一中午12点33分，西班牙和葡萄牙的电网完全崩溃，...

电源与新能源电源 2025-12-22

使用源开关SiC JFET的反激变换器设计AND90330/D

一、引言快速开关宽带隙（WBG）器件的出现显著提高了多种电源转换电路的功率密度，例如主动整流器、LLC谐振桥、相移全桥和双主动桥等。这些电路构成了高效AC-DC和DC-DC阶段的骨干，广泛应用于汽车、太阳能逆变器和数据中...

电源与新能源电源变换器 2025-12-22

555摩托车直流点火器电路

设计方案摩托车直流点火器 2009-07-06

三菱FX系列PLC教程 2 —— 可编程控制器的发展趋势

可编程控制器的发展趋势...

视频三菱 PLC FXPLC 可编程控制器 2010-01-15

业界灵敏度领先的TMAG5134面内霍尔效应开关，助力降低设计成本

简介德州仪器 (TI) 推出了一款业界领先、具备高灵敏度的面内霍尔效应开关，专为位置传感应用设计，为工程师提供了一种经济高效、用户友好的磁阻传感器替代品。TI 的 TMAG5134 霍尔效应开关带有集成磁集中器，可以在门...

元件/连接器霍尔效应开关传感面内磁性开关 2025-12-22

手机医疗终端

手机作为医疗电子的终端，新的尝试、大胆的尝试.......利用手机的通信功能还可以大大颠覆传统医疗电子的应用！...

视频医疗电子手机终端 2010-01-14

555自行车转弯方向灯电路

设计方案自行车转弯方向 2009-07-06

PWM开关调整器及其应用电路

PWM开关调整器及其应用电路...

资源下载电源 PWM 开关调整器 2007-02-09

提供EDA IC设计工具和部分IC经典图书！！

jasperxxx 2004-08-12

大家看这个怎么样

armdes 2004-08-12

工业用控制器

工业用控制器...

视频工业控制控制器 2010-01-15

三菱FX系列PLC教程 1 —— 可编程控制器的历史

可编程控制器的历史...

视频三菱 PLC FXPLC 可编程控制器 2010-01-15

更多 培训课堂

更多焦点

更多视频

技术专区