优于FCOS：在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

发布人：CV研究院时间：2022-04-14 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

与基线FCOS（一种单阶段和无锚目标象检测模型）相比，新提出的模型在不同的主干上始终获得大约3 个AP的改进，证明了新方法的简单性和效率。

一、前言

Non keypoint-based的目标检测模型由分类和回归分支组成，由于不同的任务驱动因素，这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。point-based的预测方法，在基于高分类置信点具有高回归质量的假设上，导致错位问题。我们的分析表明，该问题进一步具体由尺度错位和空间错位组成。

研究者的目标是以最小的成本解决这一现象——对head network进行微调，并用一种新的标签分配方法代替。实验表明，与基线FCOS（一种单阶段和无锚目标象检测模型）相比，新提出的模型在不同的主干上始终获得大约3 个AP的改进，证明了新方法的简单性和效率。

二、背景

目标检测是深度学习时代比较发达的研究领域。通常考虑两种不同的任务，分类旨在研究跨多类的不同特征，回归旨在绘制准确的边界框。然而，由于这两个任务之间的巨大特征信息敏感性，TSD【Revisiting the sibling head in object detector】显示存在空间特征错位问题，并损害了基于NMS的模型预测高置信度分类和高质量回归结果的能力。

对于空间错位部分，研究者在同一实例中渲染了分类损失和回归损失的空间分布。如上图所示，两个分布高度错位。具有微小分类损失或回归损失的点具有更好的特征可供这两个分支分别利用。因此，两个任务损失的高度错位分布表明这两个任务不喜欢相同空间位置的特征。

在这些分析下，为了解决尺度特征错位问题，研究者为每个任务设计了一个任务驱动的动态感受野适配器，一个简单但有效的形变卷积模块。为了减轻空间特征错位带来的负面影响，设计了一种标签分配方法，挖掘空间最对齐的样本，以增强模型预测具有高分类分数的可靠回归点的能力。

三、新框架

dynamic receptive filed adaptor

在现代one-stage检测器的head，为了在两个分支上获得相同大小的特征图，来自两个分支的四个卷积操作的每一步共享完全相同的内核大小、striding和padding。每个分支的最终感受野由下式计算：

Rl是每个FPN级别馈送的初始特征图的输入图像上的感受野，f(•)是关于跨四个连续卷积层的感受野的静态计算方法。

值得注意的是，RFA模块仅应用于检测器head的第一步，具有两个单独的形变卷积，以增强每个分支对尺度信息的适应能力，并进一步减轻尺度错位的差异。它不同于直接将形变卷积应用于主干或neck，而不考虑两个分支的不同感受野。它也不同于VFNet和RepPoints，它们通过形变卷积合并两个分支的信息。在我们的例子中，每个分支都放宽了规模不匹配，因为我们根据详细的特征信息使每个分支中的每个特征点具有不同的个体感受野。

形变卷积（Deformable Convolution）原理

形变卷积的实现方法如下图所示：

offset field通过在原图上进行标准卷积操作得到，通道数为2N表示N个2维的偏置量（△x，△y），N表示卷积核的个数即输出特征层的通道数。形变卷积过程可以描述为：首先在输入feature map上进行标准卷积得到N个2维的偏置量（△x，△y），然后分别对输入feature map上各个点的值进行修正：设feature map为P，即P （ x ， y ） = P （ x + △ x ， y + △ y ），当x+△x为分数时，使用双线性插值计算P（x+△x，y+△y）形成N个feature map，然后使用N个卷积核一一对应进行卷积得到输出。标准卷积与形变卷积的计算效果如下图所示：