CVPR小样本检测：蒸馏&上下文助力小样本检测

发布人：CV研究院时间：2022-04-14 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

目标检测现在的框架越来越多，我们“计算机视觉研究院”最近也分享了众多的目标检测框架！今天我们继续分享一个最新的检测框架——YOLOR。

论文：https://arxiv.org/pdf/2103.17115.pdf
开源代码： https://github.com/hzhupku/DCNet

前言

传统的基于深度学习的目标检测方法需要大量的边界框标注数据进行训练，获得如此高质量的标注数据成本很高。少样本目标检测，学习适应只有少数带注释的例子的新类，非常具有挑战性，因为新目标的细粒度特征很容易被忽略，而只有少数可用数据。

为了充分利用带注释的新目标的特征并捕获查询对象的细粒度特征，研究者提出了具有稠密关系蒸馏与上下文感知聚合来解决Few-Shot检测问题。Dense Relation Distillation 模块建立在基于元学习的框架之上，旨在充分利用支持特征，其中支持特征和查询特征密集匹配，以前向传播方式覆盖所有空间位置。引导信息大量使用赋予了模型处理常见挑战（例如外观变化和遮挡）的能力。此外，为了更好地捕捉尺度感知特征，上下文感知聚合模块自适应地利用来自不同尺度的特征以获得更全面的特征表示。

背景

先前对Few-Shot物体检测的研究主要由两组组成。他们中的大多数采用基于元学习的框架来为特定于类的预测执行特征重新加权。而【Frustratingly simple few-shot object detection】采用两阶段微调方法，仅微调最后一层检测器并实现最先进的性能。【Multi-scale positive sample refinement for few-shot object detection】也使用类似的策略并专注于小样本检测中的尺度变化问题。

然而，由于小样本对象检测的挑战性，上述方法通常存在一些缺点。首先，在之前的小样本检测工作中，支持特征和查询特征之间的关系几乎没有被充分探索，其中支持特征的全局池化操作主要用于调制查询分支，这容易丢失详细的局部上下文。具体来说，物体的外观变化和遮挡很常见，如上图所示。如果没有提供足够的判别信息，模型就无法学习类别和边界框预测的关键特征。其次，尽管尺度变化问题在之前的工作中得到了广泛的研究，但它仍然是小样本检测任务中的一个严重障碍。在少样本设置下，具有尺度感知改变的特征提取器倾向于过度拟合，导致基类和新类的性能下降。

Few-Shot Object Detection

小样本目标检测旨在仅提供一些带注释的训练示例，从新类别中检测目标。LSTD和RepMet采用通用的迁移学习框架，通过将预训练的检测器适应少数场景来减少过度拟合。

Meta YOLO

最近，Meta YOLO使用YOLO v2设计了一种新颖的小样本检测模型，该模型学习可泛化的元特征，并通过从支持示例中生成特定于类的激活系数来自动重新加权新类的特征。

Meta R-CNN

Meta R-CNN和FsDetView使用基础检测器执行与Faster RCNN类似的过程。TFA通过仅在第二阶段微调分类器来简单地执行两阶段微调方法，并获得更好的性能。MPSR提出了多尺度正样本细化来处理尺度方差问题。CoAE提出了非局部RPN，并通过与其他跟踪方法进行比较，从跟踪的角度专注于单次检测。

而今天分享的方法以更直接的方式对主干提取的特征进行交叉注意，目标在Few-Shot检测任务。FSOD提出了注意力RPN、多关系检测器和对比训练策略来检测新对象。在新框架工作中，采用了与Meta R-CNN类似的基于元学习的框架，并进一步提高了性能。此外，使用提出的方法，可以成功删除特定于类的预测过程，从而简化整个过程。

新框架

DCNet

如下图所示，展示了具有上下文感知特征聚合 (CFA) 模块的密集关系蒸馏 (DRD) 模块，以充分利用支持特征并捕获必要的上下文信息。这两个提出的组件构成了最终模型DCNet。研究者将首先描述所提出的DRD模块的架构。然后将带出CFA模块的细节。

Dense Relation Distillation Module

给定查询图像和支持集，通过将它们输入共享特征提取器来生成查询和支持特征。密集关系蒸馏（DRD）模块的输入是查询特征和支持特征。这两个部分首先通过专用的深度编码器编码成键和值映射对。查询编码器和支持编码器采用相同的结构，但不共享参数。

Relation Distillation。在获取查询和支持特征的键/值映射后，进行关系蒸馏。如上图所示，支持特征值映射的软权重是通过测量查询特征的关键映射和支持特征之间的相似性来计算的。

Context-aware Feature Aggregation

如上图所示，研究者为每个由两个块组成的特征添加一个注意力分支。第一个块包含全局平均池化。第二个包含两个连续的fc层。之后，向生成的权重添加softmax归一化，以平衡每个特征的贡献。那么聚合特征的最终输出就是三个特征的加权求和。

Learning Strategy

实验及可视化

Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset

(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.