"); //-->
提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。
01
概述
02
背景
最近,人们普遍关注构建通用视觉系统,也称为视觉基础模型,它可以同时解决各种视觉任务,例如图像分类、物体检测,以及视觉语言 (VL) 理解。特别感兴趣的是定位任务(例如,目标检测和分割)和VL理解任务(例如,VQA和图像字幕)之间的统一。
localization预训练有利于VL任务,“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一,旨在这两种任务之间互惠互利,简化预训练程序并降低预训练成本。
然而,这两种任务似乎有很大的不同:定位任务仅是视觉任务,需要细粒度的输出(例如,边界框或像素掩码),而VL理解任务强调两种模式之间的融合,需要高级语义输出。例如,答案或标题)。
03
新框架
Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2统一公式的核心是分类匹配技巧,它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配,这使模型能够直接从原始图像-文本数据中学习,并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中,我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。
GLIPv2 Pre-training
GLIPv2使用三个预训练损失进行预训练:来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter,以及标准掩码BERT中提出的语言建模损失Lmlm。
Transfer GLIPv2 to Localization and VL Tasks
我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外,GLIPv2可以在本地化的同时执行传统的VL任务(例如VQA),有效地使我们认为的每项任务都成为“基础的VL理解”任务。
GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
实验及可视化
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
AI热潮引发多层陶瓷电容MLCC供应短缺
基于Microchip MCU的AI/ML培训教程3
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
电子元件培训教材
海联达(Aigale)Ai-HD1 无线全高清套件拆解
基于Microchip MCU的AI/ML培训教程1
iCAN-4017 AI功能模块
万家乐JSYZ5-AI燃气热水器电路图
继上次海联达Ai-ap100拆机之电源改造
基于VisitionX制造智能眼镜
EEPW2018年6月刊(5G)
WTC-AI太阳能热水器电路图
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
EEPW2018年3月刊(工业物联网)
AI 驱动估值飙升:光通信半导体企业市值暴涨
基于Ai-WB2-12F与Rd-04的雷达检测系统
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
赋能边缘端对话式人工智能
释说芯语16:硬科技:构建企业未来之路(附PPT)
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
英伟达CFO:我们早就知道内存大涨价要来了
AI竞争进入下半场:从“卷参数”到“卷单价”
WTC-AI型太阳能热水器电路图
GPU:面临工作负载转变的高吞吐架构
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
CSR8670CSR8675智能语音Alexa蓝牙方案开发
人工智能是如何帮助阻止造假者的?
尼吉康的事业介绍
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
基于Microchip MCU的AI/ML培训教程2