"); //-->
论文中的图有时会出现与实现代码不对应的情况,这会让读者头大,不知是有意还是无意为之。这次,没想到大名鼎鼎的 Transformer 论文也「翻车」了。
2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领域最受欢迎的模型之一,被广泛应用于各种语言任务,并取得了许多 SOTA 结果。不仅如此,在 NLP 领域一路领先的 Transformer,迅速席卷计算机视觉(CV)、语音识别等领域,在图像分类、目标检测、语音识别等任务上取得良好的效果。论文地址:https://arxiv.org/pdf/1706.03762.pdf从推出至今,Transformer 已经成为众多模型的核心模块,比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer,而后者早已被谷歌申请了专利。
图源:https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf此外 OpenAI 发布的系列模型 GPT(Generative Pre-trained Transformer),名字中带有 Transformer,可见 Transformer 是 GPT 系列模型的核心。与此同时,最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示,当 Transformer 刚发布之初,实际上是论文放出来的第二天,他们就迫不及待的将以前的研究切换到 Transformer ,后续才有了 GPT。可见 Transformer 的重要性不言而喻。6 年时间,基于 Transformer 构建的模型不断发展壮大。然而现在,有人发现了 Transformer 原始论文中的一处错误。Transformer 架构图与代码「不一致」发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出,原始 Transformer 论文中的架构图有误,将层归一化(LN)放置在了残差块之间,而这与代码不一致。
Transformer 架构图如下左,图右为 Post-LN Transformer 层(出自论文《On Layer Normalization in the Transformer Architecture》[1])。
不一致的代码部分如下,其中 82 行写了执行顺序「layer_postprocess_sequence="dan"」,表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为:add 在 norm 上面,即先 norm 再 add,那确实代码和图不一致。
代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…接下来,Sebastian 又表示,论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好,能够解决梯度问题。这是很多或者大多数架构在实践中所采用的,但它可能导致表示崩溃。当层归一化在注意力和全连接层之前被放置于残差连接之中时,能够实现更好的梯度。
因此,虽然关于 Post-LN 或 Pre-LN 的争论仍在继续,但另一篇论文结合了这两点,即《ResiDual: Transformer with Dual Residual Connections》[2]。
对于 Sebastian 的这一发现,有人认为,我们经常会遇到与代码或结果不一致的论文。大多数是无心之过,但有时令人感到奇怪。考虑到 Transformer 论文的流行程度,这个不一致问题早就应该被提及 1000 次。Sebastian 回答称,公平地讲,「最最原始」的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,同时没有更新架构图。所以,这实在令人困惑。
正如一位网友所说,「读代码最糟糕的是,你会经常发现这样的小变化,而你不知道是有意还是无意。你甚至无法测试它,因为你没有足够的算力来训练模型。」不知谷歌之后会更新代码还是架构图,我们拭目以待!参考链接:论文[1]:https://arxiv.org/pdf/2002.04745.pdf论文[2]https://arxiv.org/pdf/2304.14802.pdf
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
WTC-AI太阳能热水器电路图
赋能边缘端对话式人工智能
万家乐JSYZ5-AI燃气热水器电路图
基于Microchip MCU的AI/ML培训教程2
释说芯语16:硬科技:构建企业未来之路(附PPT)
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
英伟达CFO:我们早就知道内存大涨价要来了
AI竞争进入下半场:从“卷参数”到“卷单价”
尼吉康的事业介绍
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
GPU:面临工作负载转变的高吞吐架构
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
基于VisitionX制造智能眼镜
基于Microchip MCU的AI/ML培训教程3
海联达(Aigale)Ai-HD1 无线全高清套件拆解
WTC-AI型太阳能热水器电路图
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
EEPW2018年6月刊(5G)
AI热潮引发多层陶瓷电容MLCC供应短缺
iCAN-4017 AI功能模块
基于Microchip MCU的AI/ML培训教程1
AI 驱动估值飙升:光通信半导体企业市值暴涨
继上次海联达Ai-ap100拆机之电源改造
电子元件培训教材
基于Ai-WB2-12F与Rd-04的雷达检测系统
CSR8670CSR8675智能语音Alexa蓝牙方案开发
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
人工智能是如何帮助阻止造假者的?
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
EEPW2018年3月刊(工业物联网)