专栏中心

EEPW首页 > 专栏 > Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强(1)

Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强(1)

发布人:计算机视觉工坊 时间:2023-07-19 来源:工程师 发布文章

LLM 的成功,某种程度上要归功于 Transformer 架构在自然语言处理任务上的突破。该架构最初是为了克服循环模型的 sequential training 问题而提出的。这些年来,Transformer 已经成为 LLM 普遍采用的架构。


然而,Transformer 的训练并行性是以低效推理为代价的:每一步的复杂度为 O (N) 且键值缓存受内存限制,让 Transformer 不适合部署。不断增长的序列长度会增加 GPU 内存消耗和延迟,并降低推理速度。


研究者们一直在努力开发下一代架构,希望保留训练并行性和 Transformer 的性能,同时实现高效的 O (1) 推理。针对这个问题,此前的方法都没能同时实现这几点,至少与 Transformer 相比没有显示出绝对的优势。


现在,微软研究院和清华大学的研究者已经在这个问题上取得了重大突破。


图片

论文链接:https://arxiv.org/pdf/2307.08621.pdf


在这项工作中,研究者提出了 retentive 网络(RetNet),同时实现了低成本推理、高效长序列建模、媲美 Transformer 的性能和并行模型训练,打破了「不可能三角」。


图片


具体来说,RetNet 引入了一种多尺度 retention 机制来替代多头注意力,它有三种计算范式:并行、循环和分块循环表征。


首先,并行表征使训练并行化,以充分利用 GPU 设备。其次,循环表征法在内存和计算方面实现了高效的 O (1) 推理。部署成本和延迟可以显著降低,同时无需键值缓存技巧,大大简化了实现过程。此外,分块循环表征法能够执行高效的长序列建模。研究者对每个局部块进行并行编码以提高计算速度,同时对全局块进行循环编码以节省 GPU 内存。


论文进行了大量实验来对比 RetNet 和 Transformer 及其变体。实验结果表明,RetNet 在 scaling 曲线和上下文学习方面始终具有竞争力。此外,RetNet 的推理成本与长度无关。对于 7B 模型和 8k 序列长度,RetNet 的解码速度是带键值缓存的 Transformers 的 8.4 倍,内存节省 70%。


图片


在训练过程中,RetNet 也能够比标准 Transformer 节省 25-50% 的内存,实现 7 倍的加速,并在高度优化的 FlashAttention 方面具有优势。此外,RetNet 的推理延迟对批大小不敏感,从而实现了巨大的吞吐量。


这些令人惊艳的特质让不少研究者惊呼「好得不可思议」,甚至有人将其比作当初「M1 芯片」登场所带来的变革意义。看来,RetNet 有望成为 Transformer 的有力继承者。


图片


不过,也有研究者提出疑问:这么优秀的表现是否意味着 RetNet 要在某些方面有所权衡?它能扩展到视觉领域吗?


图片


图片


接下来,让我们深入了解 RetNet 方法的细节。


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: AI

相关推荐

CSR8670CSR8675智能语音Alexa蓝牙方案开发

资源下载 2017-12-14

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

视频 2025-12-19

AI聊天机器人能像医生一样推理吗?

思科凭借通用商用芯片与光模块赢得 AI 领域客户

存储器转型AI战略资源 台厂受惠

网络与存储 2026-05-19

国家“算力网”:像用水用电一样用AI

2026-05-18

基于Microchip MCU的AI/ML培训教程2

视频 2025-11-12

EEPW2018年6月刊(5G)

资源下载 2018-06-11

被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局

EEPW2018年3月刊(工业物联网)

研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新

前Qwen负责人林俊旸创业,目标融资规模为数亿美元

2026-05-14

基于Microchip MCU的AI/ML培训教程1

视频 2025-11-12

尼吉康的事业介绍

视频 2025-07-25

电子元件培训教材

重新构想AI电源:塑造AI加速的未来(第三部分)

基于Microchip MCU的AI/ML培训教程3

视频 2025-11-12

联发科加速AI在地化应用布局

智能计算 2026-05-19

AI/HPC新世代 COUPE光互连扮要角

网络与存储 2026-05-15
更多 培训课堂
更多 焦点
更多 视频

技术专区