"); //-->
最近我看了一些之前的检测框架,发现有两个很有意思,不错的框架,接下来我给大家简单分析下,希望给大家带来创新的启示!
论文地址:https://arxiv.org/pdf/2106.00666.pdf源代码地址:https://github.com/hustvl/YOLOS
1
2
ViT-FRCNN是第一个使用预训练的ViT作为R-CNN目标检测器的主干。然而,这种设计无法摆脱对卷积神经网络(CNN)和强2D归纳偏差的依赖,因为ViT-FRCNN将ViT的输出序列重新解释为2D空间特征图,并依赖于区域池化操作(即RoIPool或RoIAlign)以及基于区域的CNN架构来解码ViT特征以实现目标级感知。受现代CNN设计的启发,最近的一些工作将金字塔特征层次结构和局部性引入Vision Transformer设计,这在很大程度上提高了包括目标检测在内的密集预测任务的性能。然而,这些架构是面向性能的。另一系列工作,DEtection TRansformer(DETR)系列,使用随机初始化的Transformer对CNN特征进行编码和解码,这并未揭示预训练Transformer在目标检测中的可迁移性。
ViT-FRCNN
为了解决上面涉及的问题,有研究者展示了You Only Look at One Sequence (YOLOS),这是一系列基于规范ViT架构的目标检测模型,具有尽可能少的修改以及注入的归纳偏置。从ViT到YOLOS检测器的变化很简单:
YOLOS在ViT中删除[CLS]标记,并将一百个可学习的[DET]标记附加到输入序列以进行目标检测;
YOLOS将ViT中的图像分类损失替换为bipartite matching loss,以遵循Carion等人【End-to-end object detection with transformers】的一套预测方式进行目标检测。这可以避免将ViT的输出序列重新解释为2D特征图,并防止在标签分配期间手动注入启发式和对象2D空间结构的先验知识。
3
YOLOS删除用于图像分类的[CLS]标记,并将一百个随机初始化的检测标记([DET] 标记)附加到输入补丁嵌入序列以进行目标检测。
在训练过程中,YOLOS将ViT中的图像分类损失替换为bipartite matching loss,这里重点介绍YOLOS的设计方法论。
4
YOLOS的不同版本的结果
与训练的效果
不同尺度模型的预训练和迁移学习性能
与一些小型CNN检测器的比较
Self-attention Maps of YOLOS检验与YOLOS-S最后一层头部预测相关的[DET]tokens的自注意力。可视化pipeline遵循【 Emerging properties in self-supervised vision transformers】。可视化结果如下图所示。
对于给定的YOLOS模型,不同的自注意力头关注不同的模式和不同的位置。一些可视化是可解释的,而另一些则不是。
我们研究了两个YOLOS模型的注意力图差异,即200 epochs ImageNet-1k预训练YOLOS-S和300 epochs ImageNet-1k预训练YOLOS-S。注意这两个模型的AP是一样的(AP=36.1)。从可视化中,我们得出结论,对于给定的预测对象,相应的[DET]标记以及注意力图模式通常对于不同的模型是不同的。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
AI热潮引发多层陶瓷电容MLCC供应短缺
AI 驱动估值飙升:光通信半导体企业市值暴涨
人工智能是如何帮助阻止造假者的?
WTC-AI太阳能热水器电路图
万家乐JSYZ5-AI燃气热水器电路图
电子元件培训教材
基于Microchip MCU的AI/ML培训教程1
iCAN-4017 AI功能模块
英伟达CFO:我们早就知道内存大涨价要来了
基于Microchip MCU的AI/ML培训教程3
EEPW2018年3月刊(工业物联网)
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
海联达(Aigale)Ai-HD1 无线全高清套件拆解
尼吉康的事业介绍
释说芯语16:硬科技:构建企业未来之路(附PPT)
赋能边缘端对话式人工智能
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
WTC-AI型太阳能热水器电路图
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
基于VisitionX制造智能眼镜
AI竞争进入下半场:从“卷参数”到“卷单价”
基于Ai-WB2-12F与Rd-04的雷达检测系统
EEPW2018年6月刊(5G)
GPU:面临工作负载转变的高吞吐架构
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
基于Microchip MCU的AI/ML培训教程2
CSR8670CSR8675智能语音Alexa蓝牙方案开发
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
继上次海联达Ai-ap100拆机之电源改造