"); //-->
一个模型在五项基准上都实现了重大进步,该研究已被 CVPR 2022 大会收录。
多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述(字幕)。这样的系统是朝着构建多模态对话系统的长期目标前进的一步,后者可以轻松地与用户交流,同时通过多模态输入流感知环境。
与关键挑战在于处理和理解多模态输入视频的视频理解任务不同,多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被采用最广泛的方法是使用手动注释数据联合训练编码器 - ****网络。
然而,由于缺乏大规模的人工标注数据,为视频注释可用字幕的任务是非常耗费人力的,在许多情况下不切实际。VideoBERT 和 CoMVT 等先前的研究通过利用自动语音识别(ASR)对未标记视频的模型进行预训练。然而,此类模型通常无法生成自然语言句子,因为它们缺少****,因此只有视频编码器被转移到下游任务。
在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架,被称为多模态视频生成预训练或 MV-GPT,它从未标记的视频中联合训练多模态视频编码器和句子****,以输出未来语句文本,制定新的双向生成任务作为目标。
论文链接:https://arxiv.org/pdf/2201.08264.pdf
实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上,在各种基准测试中取得了 SOTA 结果。此外,多模态视频编码器在多种视频理解任务方面具有竞争力,例如 VideoQA、文本视频检索和动作识别。
未来语句作为附加文本信号
通常,用于多模态视频字幕的每个训练视频剪辑都要与两个不同的文本相关联:其一作为多模态输入流的一部分,与剪辑对齐的语音转录本;其二是目标字幕,通常需要手动注释。编码器需要学习将文本中的信息与视觉内容融合,目标标签用于训练****进行生成。
但在未标记视频的情况下,每个视频剪辑仅带有来自 ASR 的脚本,没有手动注释的目标标签。此外,我们不能对编码器输入和****目标使用相同的文本(ASR 转录本),因为这对生成目标没有多少意义。
MV-GPT 通过利用未来的话语作为附加文本信号并启用编码器和****的联合预训练来规避这一挑战。但是,训练模型以生成通常不以输入内容为基础的未来话语效果并不理想。因此,谷歌应用了一种新的双向生成损失函数来加强与输入的关联。
双向生成损失
我们可以通过制定包括前向和后向生成的双向生成损失来缓解非基础文本生成的问题。前向生成在给定视觉框架及其相应的转录本的情况下生成未来语句,并允许模型学习将视觉内容与其相应的转录本融合。反向生成采用视觉帧和未来语句来训练模型,以生成包含更多视频剪辑基础文本的脚本。
MV-GPT 中的双向生成损失允许对编码器和****进行训练以处理基于视觉的文本。
MV-GPT 中的双向生成,已训练两代损失。在前向生成中,模型在给定帧和当前话语(红色框)的情况下生成未来话语(蓝色框),而现在是从后向生成中的未来话语生成的。两个特殊的句首标记([BOS-F] 和 [BOS-B])为****启动前向和后向生成。
多模态视频字幕生成结果
研究人员将 MV-GPT 与使用相同模型架构的现有预训练损失进行比较,在 YouCook2 上使用标准评估指标(Bleu-4、Cider、Meteor 和 Rouge-L)。虽然所有预训练技术都可以提高字幕性能,但联合预训练****提高模型性能的效果最为明显。
实验证明了 MV-GPT 比之前最先进的联合预训练方法高出 3.5% 以上,并且在所有四个指标上都有相对增益。
MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和****。作者重新实现了现有方法的损失函数,但使用新模型和训练策略进行公平比较。
研究人员将 MV-GPT 预训练的模型转移到四个不同的字幕基准:YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。
谷歌的模型在所有四个基准测试中都以显著优势实现了最先进性能。例如在 Meteor 指标上,MV-GPT 在所有四个基准测试中都显示出超过 12% 的相对改进。
业内最佳方法和 MV-GPT 在四个基准上的度量分数。
尽管 MV-GPT 是旨在训练多模态视频字幕的生成模型,但研究发现新预训练技术学习了一个强大的多模态视频编码器,可应用于多种视频理解任务,包括 VideoQA、文本视频检索和动作分类等任务。
与最佳可比基线模型相比,从 MV-GPT 迁移的模型在五个视频理解基准的主要指标上表现出卓越的性能 —— 如在 VideoQA 和动作分类基准的 top 1 准确度,以及检索基准的召回率上。
在五个视频理解基准上将 MV-GPT 与最佳可比基线模型进行比较。对于每个数据集,此处报告了广泛使用的主要指标,即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答准确率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分类准确度。
总结
本文介绍了 MV-GPT,一种用于多模态视频字幕的新生成预训练框架。它通过双向生成目标,使用在未标记视频中不同时间采样的话语联合预训练多模态编码器和字幕****。该预训练模型在多个视频字幕基准和其他视频理解任务(如 VideoQA、视频检索和动作分类)上取得了最先进的结果。
原文链接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
尼吉康的事业介绍
被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局
基于Ai-WB2-12F与Rd-04的雷达检测系统
AI聊天机器人能像医生一样推理吗?
基于Microchip MCU的AI/ML培训教程1
研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新
基于VisitionX制造智能眼镜
前Qwen负责人林俊旸创业,目标融资规模为数亿美元
EEPW2018年3月刊(工业物联网)
WTC-AI型太阳能热水器电路图
AI/HPC新世代 COUPE光互连扮要角
基于Microchip MCU的AI/ML培训教程2
EEPW2018年6月刊(5G)
CSR8670CSR8675智能语音Alexa蓝牙方案开发
WTC-AI太阳能热水器电路图
联发科加速AI在地化应用布局
继上次海联达Ai-ap100拆机之电源改造
万家乐JSYZ5-AI燃气热水器电路图
思科凭借通用商用芯片与光模块赢得 AI 领域客户
海联达(Aigale)Ai-HD1 无线全高清套件拆解
存储器转型AI战略资源 台厂受惠
电子元件培训教材
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
基于Microchip MCU的AI/ML培训教程3
释说芯语16:硬科技:构建企业未来之路(附PPT)
人工智能是如何帮助阻止造假者的?
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
iCAN-4017 AI功能模块
国家“算力网”:像用水用电一样用AI
重新构想AI电源:塑造AI加速的未来(第三部分)