NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

发布人：数据派THU 时间：2021-12-18 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

来源：专知

MixTraining: 一种全新的物体检测训练范式

论文链接：

https://www.zhuanzhi.ai/paper/b52468c0ddce3d49f7740cfd1528a7a0

代码链接（即将开源）：

https://github.com/MendelXu/MixTraining

物体检测是计算机视觉中的基础课题。经典的物体检测器通常采用单一的数据增强策略，并简单地使用人工标注的物体包围盒来进行训练，这种训练策略也被称为 SiTraining 范式。在本篇论文中，微软亚洲研究院的研究员们提出了一种全新的物体检测训练范式：MixTraining。该范式通过引入 Mixed Training Targets（混合训练目标）与 Mixed Data Augmentation(混合数据增广)，可以有效提升现有物体检测器性能，并且不会在测试阶段增加任何额外的开销。如表4所示，MixTraining 能够将基于 ResNet-50 的 Faster R-CNN 的检测精度从41.7mAP 提升至44.3 mAP，并将基于 Swin-S 的 Cascade R-CNN 的检测精度从 50.9mAP 提升至 52.8mAP。

表4：MixTraining 可以有效提升多种现有检测器的检测性能

除了良好的系统级性能提升以外，研究员们还对该范式为何有效进行了深入详尽的分析与研究。研究员们首先对 Mixed Training Targets (混合训练目标)的工作机理进行了分析。Mixed Training Targets (混合训练目标)采用了老师-学生 (Teacher-Student)架构来生成高质量的检测结果，并将这些检测结果作为伪标注（Pseudo ground-truth）再与真实的人类标注 (Human-annotated ground-truth)结合起来共同作为网络的训练标注。研究员们发现这种使用混合标注有两种好处：1）可以避免漏标的物体(missing label) ；2）可以降低标注中的定位噪声(box loc noise) 。分析结果如表5所示。