基于图结构的图像注意力网络

作者：曾金芳，封琳琅，李婕妤，闫李丹（湘潭大学物理与光电工程学院，湖南湘潭 411105）时间：2022-07-26来源：电子产品世界收藏

摘要：虽然现已有许多关于图像注意力机制的研究，但是现有的方法往往忽视了特征图的全局空间结构和空间注意力与通道注意力的联系。所以本文提出了一种基于整个空间拓扑结构的注意机制，将特征图映射成结点与特征的形式，再借助图卷积网络的特性，得以从整个空间学习特征权重图。其次空间注意力与通道注意力一体化结构能够更有效地学习特征权重。通过多个实验测试表明，在图像分类和人脸识别任务中，展现了优异的性能和普遍适用性。

本文引用地址：http://www.eepw.com.cn/article/202207/436663.htm

关键词：深度学习；注意力机制；图像分类；人脸识别

随着计算机性能的提升，卷积神经网络 (convolu tional neural network, CNN) 广泛地运用于图像领域。经过多年的研究，基于卷积神经网络的网络架构取得了重大的成功。HE 等提出了残差网络，可以跳层连接的残差单元有效地解决梯度消失与梯度爆炸问题，使得网络的深度成倍增长，进而图像注意力机制逐渐受到关注。WANG 等使用编码器 - 解码器的结构对残差网络进行了注意力机制的改造得到残差注意力网络 (residual attention network, RAN)。HU 等使用通道注意和通道特征融合来抑制不重要通道的方式构建了缩聚激发网络 (squeeze-and-excitation networks, SENet)。PARK 等构建了瓶颈注意模块 (bottleneck attention module, BAM)，该模块依次使用通道注意力网络和空间注意力网络推理注意力图。FUKUI 等构建了复杂的注意力分支结构网络 (attention branch network, ABN), 引入具有注意力机制的分支结构来扩展基于响应的视觉解释模型。MISRA 等考虑了通道 - 空间相互作用，基于三个维度两两相关性构建注意力网络 TAM (triplet attention module)。

虽然现已提出的许多注意都从通道注意力和空间注意力两方面来设计模型，但是其空间结构的尺度取决于卷积核的大小，而且没有从图像整体出发分析空间特性并忽视了通道与空间的关联性。在研究中发现，图卷积网络 (graph convolution network, GCN) 能够充分地使用这些特性学习特征图。因此本文基于图卷积网络提出了图结构注意力网络 (graph structure attention network, GSAN)，该模型既考虑了通道与空间的关联性也考虑了图像整个拓扑结构。

1 图结构注意力网络

在已有的研究表明，图卷积网络本身充分考虑了通道的影响并且在解决非欧几里得数据展现了强大的性能。我们利用这些特性设计了一个通道注意力与空间注意力一体化的注意力网络模型，而不用像其他注意力网络模型一样分别设计通道注意力分支和空间注意力分支。在模型中我们设计了一套由图像到图的数据映射关系，使得输入特征与图卷积网络的输入相匹配，并以图卷积网络为基础构建了图结构注意力网络。在研究中表明，本文所设计注意力模型分类性能与卷积层数有关，所以本文设计的卷积层数可调的注意力网络，以下内容均以两层卷积层的网络为例说明。

2 图与图卷积网络

卷积网络的卷积，本质上利用滤波器对矩阵空间的某个区域内的像素点进行加权求和，进而求得新的特征表示的过程。许多没有明确规律的非欧几里得数据并不适用于卷积网络，而图卷积的诞生者很好的解决这一问题。在已往的研究中，图卷积网络在具有拓扑结构的数据上表现出了强大的分类性能，其依赖不变的邻接矩阵对输入的结点特征学习，如图 3 所示。

图3 图卷积网络

本文所搭建的图结构注意力网络使用的图卷积网络模型如式 (1) 和式 (2) 所示。

3 图结构注意力网络算法

图4 图结构注意力网络模型

图结构注意力网络如图 4 所示，该注意力网络流程主要分成以下几个。

步骤 1：对上一层网络得到的输出特征图进行正则化 (Norm) 处理，并利用平均池化 (AvgPool) 操作将三个维度（C×H×W）的特征图压缩成两个维度（C×H）。

步骤 2：对步骤 1 得到的向量组重新排列，得到特征矩阵。此外，对平均池化后得到的向量建立一维的欧式空间，计算两点之间的欧氏距离，将其倒数作为结点之间连接的紧密程度，我们将其称为弱连接，如等式 3 和等式 4 所示。经过弱连接的映射后，将欧氏空间数据结构映射成了满足图卷积输入的拓扑结构数据。最后经过正则化后，得到概率描述的边，进而得到邻接矩阵。

步骤 3：将特征矩阵与正则化后的邻接矩阵输入多层的图卷积网络 (GCN)，并设定一个减少系数 r，该系数为在中间层中减少通道数的系数。最后经过激活函数并恢复维度对原特征图进行加权求解得到重新分配权重后的特征图。

4 实验结果与分析

4.1 实验平台

实验环境为 Ubuntu18.04 操作系统，AMD3600x 处理器，RTX2070SUPER 显卡，Pytorch 框架。本文所有实验均使用上述平台。

4.1.1 图像分类实验

在该实验中我们在 CIFARr100 数据集对模型进行 Rank-1 准确度评估。我们在不同网络模型上测试了 SENet、BAM、TAM 性能。分别设置了一项基准测试实验和一项消融实验。

CIFAR100 数据集：该数据集有 100 个类。每个类有 600 张大小为 32×32 的彩色图像，在模型训练过程中将其中 500 张作为训练集，100 张作为测试集。对于每一张图像，它有两个标签分别代表图像的细粒度和粗粒度标签。

参数设置：使用 SGD 优化器（lr = 0.1，momentum = 0.9，weight_decay = 5e-4）和 Cross Entropy Loss 损失函数。学习率调整策略为迭代 200 次并在 60、120， 160 次迭代调整学习率为原来的 0.1 倍。为了确定图卷积的层数对 GSAN 的影响，我们设计了一组不同层数的对比实验。如表 1 所示，较低复杂度的 GSAN 更有利于避免过拟合。

为了测试本文的注意力网络性能与普遍适用性，我们在 MobileNetV2、ResNet18 和 ResNet50 上均做了不同注意力模型的对比试验。如表 2 所示，在 MobileNetV2 和 ResNet18 上相较于其它方法达到了最好的效果，在 ResNet50 上稍差于 BAM。

4.1.2 人脸分类实验

在该实验中我们使用余弦相似度计算准确率的策略。在 CASIA-WebFace 数据集上训练模型，并在 LFW 数据集和 CFP-FP 数据集上进行人脸识别测试。

CASIA-WebFace 数据集：CASIA-WebFace 数据集是经过数据清洗的数据集，所以含有噪声的图像较少，常作为训练集使用。数据集有 10 575 个人的 494 414 张人脸图像。

LFW 数据集：图像源于生活中的自然场景，所以图像受到表情、光照、多姿态、遮挡、年龄等因素影响而差异极大。数据集有 5 749 个人的 13 233 张人脸图像。

CFP-FP 数据集：数据集对于每个人有 10 张正面图像和 4 张侧面图像。CFP-FP 数据集有 500 个人的 7 000 张人脸图像。

参数设置：使用 SGD 优化器（lr = 0.1，momentum = 0.9，weight_decay = 5e-4）和 ArcFace[16] 损失函数。

学习率调整策略为迭代 18 次并在 6、11、16 次迭代调整学习率为原来的 0.1 倍。

由于 ArcFace 损失函数的不同缩放系数 s 会极大的影响实验结果的准确率，因此我们先通过 ResNet50-IR 模型来确定准确率最高 s，如表 3 所示。

经过缩放系数的对比实验可以看出 ResNet50-IR 模型在 s 为 33 的时候准确率达到最大值，因此在其他实验中将缩放系数 s 固定为 33 进行训练和测试。实验结果如表 4 和表 5 所示，在 ResNet50-IR 上，当图卷积层为 2 时达到最好的效果，并且性能优于其他注意力模块。

5 结语

本文提出一种图结构注意力网络，该方法压缩宽度维度并有效地结合空间拓扑结构和通道注意力。通过映射成拓扑结构的方式学习空间注意力，有效地解决现有注意力感受野受限于卷积核大小的问题和卷积核过大导致性能下降的问题，并且更好地学习全局信息。实验结果表明，本文注意力网络在图像分类和人脸识别任务中均展现了优异的性能与普遍适用性。

参考文献:

[1] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.

[2] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015: 3431–3440.

[3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097–1105.

[4] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.

[5] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156–3164.

[6] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132–7141.

[7] PARK J, WOO S, LEE J Y, et al. Bam: Bottleneck attention module[C]. arXiv preprint 2018.

[8] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705–10714.

[9] MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021: 3139–3148.

[10] SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510–4520.

[11] HAN, DONGYOON, KIM J, et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017: 6307-6315.

[12] KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.

[13] YI, DONG, LEI Z, et al. Learning face representation from scratch[C]. arXiv preprint 2014.

[14] HUANG G, MATTAR M, BERG T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[C]. 2008.

[15] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.

[16] DENG, KANG J, GUO J et al. ArcFace: Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.

[17] N T, KIPF, MAX, et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.

[18] NIU Z Y, ZHONG G Q, and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452): 48-62.

(注：本文转载自《电子产品世界》2022年7月期)