人脸识别精度提升 | 基于Transformer的人脸识别

发布人：CV研究院时间：2021-07-16 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

现阶段的人脸检测识别技术已经特别成熟，不管在什么领域都有特别成熟的应用，比如：无人超市、车站检测、犯人抓捕以及行迹追踪等应用。但是，大多数应用都是基于大量数据的基础，成本还是非常昂贵。所以人脸识别的精度还是需要进一步提升，那就要继续优化更好的人脸识别框架。

论文：https://arxiv.org/pdf/2103.14803.pdf

一、技术回顾——Transformer

相比于卷积，Transformer有什么区别，优势在哪？

卷积有很强的归纳偏见（例如局部连接性和平移不变性），虽然对于一些比较小的训练集来说，这毫无疑问是有效的，但是当我们有了非常充足的数据集时，这些会限制模型的表达能力。与CNN相比，Transformer的归纳偏见更少，这使得他们能够表达的范围更广，从而更加适用于非常大的数据集；

卷积核是专门设计用来捕捉局部的时空信息，它们不能够对感受野之外的依赖性进行建模。虽然将卷积进行堆叠，加深网络会扩大感受野，但是这些策略通过聚集很短范围内的信息的方式，仍然会限制长期以来的建模。与之相反，自注意力机制通过直接比较在所有时空位置上的特征，可以被用来捕捉局部和全局的长范围内的依赖；

当应用于高清的长视频时，训练深度CNN网络非常耗费计算资源。目前有研究发现，在静止图像的领域中，Transformer训练和推导要比CNN更快。使得能够使用相同的计算资源来训练拟合能力更强的网络。

二、简要

最近，人们不仅对Transformer的NLP，而且对计算机视觉也越来越感兴趣。我们想知道Transformer是否可以用于人脸识别，以及它是否比cnns更好。

因此，有研究者研究了Transformer模型在人脸识别中的性能。考虑到原始Transformer可能忽略inter-patch信息，研究者修改了patch生成过程，使相互重叠的滑动块成为标识。这些模型在CASIA-WebFace和MSSeleb-1M数据库上进行训练，并在几个主流基准上进行评估，包括LFW、SLLFW、CALFW、CPLFW、TALFW、CFP-FP、AGEDB和IJB-C数据库。研究者证明了在大规模数据库MS-Celeb-1M上训练的人脸Transformer模型实现了与CNN具有参数和MACs相似数量的CNN相似的性能。

二、FACE TRANSFORMER

2.1 网络框架爱

人脸Transformer模型采用ViT[A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929]体系结构，采用原Transformer。唯一的区别是，研究者修改了ViT的标记生成方法，以生成具有滑动块的标记，即使图像块重叠，以便更好地描述块间信息，如下图所示。

具体地说，从图像

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

博客专栏

人脸识别精度提升 | 基于Transformer的人脸识别

相关推荐

技术专区