"); //-->
07
用于文本摘要任务的序列级对比学习模型
论文链接:https://arxiv.org/abs/2109.03481
文本摘要(Text Summarization)的主要目标就是提炼一篇长文章的主要内容,将其改写成一篇概括性的摘要。按照改写的方式,通常将摘要分为抽取式摘要和生成式摘要两种。抽取式摘要是指从原文中抽取几个句子作为摘要,而生成式摘要则需要模型对整个长文章有一个整体的理解,然后生成一段简洁、连贯的摘要。
目前来说生成式摘要主要是在 sequence-to-sequence 框架下完成的(如图13所示)。通过一个编码器(Encoder)对长的文章进行编码,再用一个****(Decoder)对编码后的信息进行解码并生成想要的摘要。在训练过程中,通常使用的是NLL(Negative Log Likelihood)作为损失函数。图13:Sequence-to-Sequence 训练中使用的 NLL 损失函数
但是微软亚洲研究院的研究员们意识到 NLL 并没有很好地建模文本摘要任务一个重要的特点:文章和摘要虽然长度的差别很大,但是所描述的主要内容应该是一致的。为了更好地在训练过程中强调这一点,研究员们引入了序列间对比学习模型 SeqCo(Sequence-level Contrastive Learning),将文章和摘要映射到成同一个向量空间的两个序列,并且在该向量空间内拉近文章序列和摘要序列的相似度。
除此之外,为了增加训练样本的多样性,研究员们还将模型生成的摘要也加入到训练样本中。整个训练过程在优化 NLL 的同时,也在拉近原文章、目标摘要和模型生成的摘要三者的相似度(如图15所示)。在训练过程中,跟 BYOL 类似,研究员们采用了双塔型的结构(见图14)。为提高训练的稳定性,对比学习目标端的参数为其对比端的移动平均值(moving average)并停止梯度回传。图14:训练过程的对比学习损失函数
图15:拉近原文章、目标摘要和模型生成的摘要三者的相似度
实验结果表明,和仅仅使用了 NLL 作为损失函数的模型相比,在训练中引入对比学习使得模型的效果在 CNNDM、XSum 和 NYT 摘要数据集上都得到了显著的提升(表8为在 CNNDM 上的结果,在其他数据集上的结果具有相同趋势)。表8:CNN/DM数据集上不同方法的性能比较
08
针对图片识别的稀疏MLP:自注意力机制真的是必要的吗?09
Shift 操作与 Transformer 的结合:一种高效的 Attention 替代方案代码链接:https://github.com/microsoft/SPACH
最近, Vision Transformer 的结构引起了研究者们的广泛关注。在许多计算机视觉的任务中,Vision Transformer 都取得了领先的性能。那么,由此引发的一个问题就是:Vision Transformer 性能优异的原因究竟是什么?
此前,许多研究者相信,自注意力机制(Self-Attention)是让Vision Transformer 成功的主要原因。相比与常见的卷积操作,自注意机制提供了一种全局的(global)、动态的(dynamic)方式去建模图像中的空间关系。但是,最近的一些研究表明,全局性和动态性可能都不是必须的,例如 Swin Transformer 将全局的 Attention 转换为局部的 Attention;MLP-Mixer 将动态的聚合权重变成了固定的全连接层。实验证明,这些简化都没有损害自注意力机制的性能。为了进一步探索是什么让 Transformer 成功,微软亚洲研究院的研究员们希望进一步去简化 Attention 的模块。具体来说,研究员们将简化推向一种极端情况:没有全局性、没有动态性、甚至没有参数、没有算术运算。这个操作就是邻域的移位操作(Shift)。
移位操作在计算机视觉已经有了很成功的应用。所以研究员们借鉴了部分移位的设计,其结构如图17所示。对于输入的特征,研究员们将一部分的通道向上、下、左、右四个方向分别移位一个像素。通过这种方式,使得模型能够获取邻域位置的信息。图17:Shift 模块与标准注意力模块对比示意图
研究员们采用这个简单的操作去替代 Swin Transformer 中的 Attention。令人惊讶的是,在许多视觉任务上,它的效果并不亚于 Swin Transformer。这说明 Transformer 成功的因素可能并不完全是由于 Attention :哪怕是这么一个0参数量、0计算量的简单操作都能够取得相近的性能。因此,在今后的研究中,Transformer 的一些设计细节或许也应该受到大家的重视,例如训练细节、归一化的方式等等。在文章中,微软亚洲研究院的研究员们也进行了一些初步的探讨,希望能够启发大家的思考。表10:与基准模型在各视觉任务中的性能对比
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
基于Ai-WB2-12F与Rd-04的雷达检测系统
AI 驱动估值飙升:光通信半导体企业市值暴涨
EEPW2018年3月刊(工业物联网)
AI竞争进入下半场:从“卷参数”到“卷单价”
万家乐JSYZ5-AI燃气热水器电路图
WTC-AI型太阳能热水器电路图
WTC-AI太阳能热水器电路图
EEPW2018年6月刊(5G)
尼吉康的事业介绍
赋能边缘端对话式人工智能
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
基于VisitionX制造智能眼镜
释说芯语16:硬科技:构建企业未来之路(附PPT)
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
电子元件培训教材
继上次海联达Ai-ap100拆机之电源改造
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
人工智能是如何帮助阻止造假者的?
AI热潮引发多层陶瓷电容MLCC供应短缺
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
CSR8670CSR8675智能语音Alexa蓝牙方案开发
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
iCAN-4017 AI功能模块
基于Microchip MCU的AI/ML培训教程3
英伟达CFO:我们早就知道内存大涨价要来了
GPU:面临工作负载转变的高吞吐架构
基于Microchip MCU的AI/ML培训教程2
海联达(Aigale)Ai-HD1 无线全高清套件拆解
基于Microchip MCU的AI/ML培训教程1