腾讯优图出品：P2P网络的人群检测与计数

发布人：CV研究院时间：2022-02-10 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

人群计数是计算机视觉中的一项核心任务，旨在估计静止图像或视频帧中的行人数量。在过去的几十年中，研究人员在该领域投入了大量精力，并在提升现有主流基准数据集的性能方面取得了显着进展。

1背景

人群计数是计算机视觉中的一项核心任务，旨在估计静止图像或视频帧中的行人数量。在过去的几十年中，研究人员在该领域投入了大量精力，并在提升现有主流基准数据集的性能方面取得了显着进展。然而，训练卷积神经网络需要大规模和高质量的标记数据集，而注释像素级行人位置的成本高得令人望而却步。

此外，由于数据分布之间的域转移，在标签丰富的数据域（源域）上训练的模型不能很好地泛化到另一个标签稀缺域（目标域），这严重限制了现有方法的实际应用。

2 引言

最近的ICCV2021，腾讯优图出品了一个人群基数相关论文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》。

论文：https://arxiv.org/pdf/2107.12858.pdf

相比仅仅估计人群中的总人数，在人群中定位每个个体更为切合后续高阶人群分析任务的实际需求。但是，已有的基于定位的解决方法依赖于某些中间表示（如密度图或者伪目标框）作为学习目标，这不光容易引入误差，而且是一种反直觉的做法。

优图团队提出了一种完全基于点的全新框架，可同时用于人群计数和个体定位。针对基于该全新框架的方法，我们不满足于仅仅量化图像级别的绝对计数误差，因此研究者提出了一种全新的度量指标即密度归一化平均精度，来提供一个更全面且更精准的性能评价方案。

此外，作为该框架一个直观解法，研究者给出了一个示例模型，叫做点对点网络（P2PNet）。P2PNet忽略了所有冗余步骤，直接预测一系列人头点的集合来定位图像中的人群个体，这完全与真实人工标注保持一致。通过深入分析，研究者发现实现该方法的一个核心策略是为预测候选点分配最优的学习目标，并通过基于匈牙利算法的一对一匹配策略来完成了这一关键步骤。实验证明，P2PNet不光在人群计数基准上显著超越了已有SOTA方法，还实现了非常高的定位精度。

今天我们“计算机视觉研究院”分享另一篇《计算机协会》收录的一篇人群计数论文《Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network》。

3 框架分析

目标域（下图顶部）和源域（下图底部）之间存在的域相似性的图示。左：一些拥挤区域在像素级别跨域相似。右图：部分源样本可能与目标样本共享相似的图像分布。

最近的深度网络令人信服地展示了人群计数的高能力，这是一项因其各种工业应用而引起广泛关注的关键任务。尽管取得了这样的进展，但由于固有的领域转移，训练有素的依赖于数据的模型通常不能很好地推广到看不见的场景。

为了解决这个问题，有研究者提出了一种新颖的对抗性评分网络 (ASNet)，以逐步弥合域之间从粗粒度到细粒度的差距。具体来说，在粗粒度阶段，设计了一种双鉴别器策略，通过对抗性学习，从全局和局部特征空间的角度使源域接近目标。两个域之间的分布因此可以大致对齐。在细粒度阶段，通过基于粗阶段得出的生成概率对源样本与来自多个级别的目标样本的相似程度进行评分来探索源特征的可转移性。由这些分层分数引导，正确选择可转移的源特征，以增强适应过程中的知识传输。通过从粗到细的设计，可以有效缓解由域差异引起的泛化瓶颈。