"); //-->
自 2017 年诞生以来,Transformer 模型在自然语言处理、计算机视觉等多个领域得到广泛应用,并出现了大量变体。近期涌现的大量 Transformer 变体朝着更高效的方向演化,谷歌研究者对这类高效 Transformer 架构进行了综述。
Transformer 是现代深度学习领域一股令人敬畏的力量,它广泛应用于语言理解、图像处理等多个领域,并产生了极大的影响。过去几年,大量研究基于 Transformer 模型做出基础性改进。人们对此的巨大兴趣也激发了对更高效 Transformer 变体的研究。
近期涌现了大量 Transformer 模型变体,研究者和从业者可能难以跟上创新的节奏。在该论文写作时(2020 年 8 月),之前的半年出现了十多个新的高效 Transformer 模型。因此,对已有文献进行综述对于社区而言是有益和及时的。自注意力机制是 Transformer 模型的核心典型特征。该机制可被看作是一种类似图的归纳偏置,将序列中的所有 token 与基于相关性的池化操作连接起来。对于自注意力的一个担忧是其时空复杂度都是平方级的,这妨碍模型在多种环境下的可扩展性。最近出现了大量试图解决该问题的 Transformer 模型变体,本文将这类模型称作「高效 Transformer」(efficient Transformer)。基于此,模型的效率有了不同的诠释。效率可能指模型的内存占用,当模型运行的加速器内存有限时这尤为重要;效率也可能指训练和推断过程中的计算成本,如 FLOPs 数。尤其对于设备端应用而言,模型应在有限的计算预算下运行。该综述论文从内存和计算两个角度来考虑 Transformer 的效率。高效自注意力模型对于建模长序列的应用很关键,如通常包括较多像素或 token 的文档、图像和视频。因此,广泛采用 Transformer 优先考虑的是处理长序列的效率。该论文旨在对这类模型的近期发展进行综述,主要聚焦于通过解决自注意力机制的平方级复杂度来提升 Transformer 效率的建模发展和架构创新,同时该论文还简要探讨了通用改进和其他效率改进。该论文提出了一种针对高效 Transformer 模型的分类法,按照技术创新和主要用途进行分类。具体而言,该论文综述了在语言和视觉领域均有应用的 Transformer 模型,并为其中的部分模型提供了详细的解读。论文链接:https://arxiv.org/pdf/2009.06732.pdf关于 TransformerTransformer 是将 Transformer 块一个个堆叠而成的多层架构,标准 Transformer 的架构如下图所示:Transformer 块的特征是多头自注意力机制、position-wise 前馈网络、层归一化模块和残差连接。Transformer 模型的输入通常是形状为 R^B × R^N 的张量,B 表示批大小,N 表示序列长度。输入首先经过嵌入层,嵌入层将每个 one-hot token 表示转换为 d 维嵌入,即 R^B × R^N × R^D 。然后将这个新的张量与位置编码(positional encoding)相加,并输入到多头自注意力模块中。位置编码可以采用正弦输入的形式,或者可训练嵌入。多头自注意力模块的输入和输出由残差连接和层归一化层来连接。将多头自注意力模块的输出传送至两层前馈网络,其输入 / 输出通过残差和层归一化来连接。子层残差连接与层归一化可表示为:
其中 F_S 是子层模块,它要么是多头自注意力,要么是 position-wise 前馈层。
高效 Transformer 模型综述这部分对高效 Transformer 模型进行了综述。首先我们来看不同模型的特点,表 1 列出了目前发布的高效 Transformer 模型,图 2 展示了多种重要高效 Transformer 模型的图示。
图 2:高效 Transformer 模型的分类,分类标准是模型的核心技术和主要应用场景。表 1:按发布时间顺序整理的高效 Transformer 模型此外,这部分还详细介绍了多个重要的高效 Transformer 模型,并分析了它们的优缺点和独特之处。这些模型包括:Memory Compressed Transformer、Image Transformer、Set Transformers、Sparse Transformers、Axial Transformers、Longformer、ETC、BigBird、Routing Transformers、Reformer、Sinkhorn Transformers、Linformer、Synthesizers、Performer、Linear Transformers、Transformer-XL 和 Compressive Transformers。具体细节此处不再赘述,详情参见原论文第三章。论文最后讨论了这些模型的评估情况和设计趋势,并简要概述了可以提高 Transformer 效率的其他方法,如权重共享、量化 / 混合精度、知识蒸馏、神经架构搜索(NAS)和 Task Adapter。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
GPU:面临工作负载转变的高吞吐架构
万家乐JSYZ5-AI燃气热水器电路图
WTC-AI太阳能热水器电路图
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
AI竞争进入下半场:从“卷参数”到“卷单价”
AI 驱动估值飙升:光通信半导体企业市值暴涨
赋能边缘端对话式人工智能
电子元件培训教材
释说芯语16:硬科技:构建企业未来之路(附PPT)
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
CSR8670CSR8675智能语音Alexa蓝牙方案开发
尼吉康的事业介绍
基于Microchip MCU的AI/ML培训教程3
基于Ai-WB2-12F与Rd-04的雷达检测系统
EEPW2018年3月刊(工业物联网)
基于Microchip MCU的AI/ML培训教程2
WTC-AI型太阳能热水器电路图
继上次海联达Ai-ap100拆机之电源改造
iCAN-4017 AI功能模块
基于VisitionX制造智能眼镜
英伟达CFO:我们早就知道内存大涨价要来了
海联达(Aigale)Ai-HD1 无线全高清套件拆解
EEPW2018年6月刊(5G)
AI热潮引发多层陶瓷电容MLCC供应短缺
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
人工智能是如何帮助阻止造假者的?
基于Microchip MCU的AI/ML培训教程1