基于深度学习的特征提取和匹配（2）

发布人：计算机视觉工坊时间：2021-05-14 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

UCN【4】

通用对应网络（Universal Correspondence Network，UCN）用于几何和语义匹配的视觉对应，包括从刚性运动到类内形状或外观变化等不同场景。深度测度学习过程，直接学习来保留几何或语义相似性的特征空间。一种卷积空间变换器（convolutional spatial transformer，CST）模拟传统特征（如SIFT）的补丁归一化，可显著提高类内形状变化语义对应（semantic correspondences）的准确性。

如图是UCN和传统方法的比较：各种类型的视觉对应问题需要不同的方法，例如用于稀疏结构的SIFT或SURF，用于密集匹配的DAISY或DSP，用于语义匹配的SIFT flow或FlowWeb。UCN准确有效地学习几何对应、致密轨迹或语义对应的度量空间。

下图是UCN系统概述：网络是全卷积的，由一系列卷积、池化、非线性和卷积空间变换器组成，还有通道L2归一化和对应对比损失函数。作为输入，网络采用图像对应点的一对图像和坐标（蓝色：正，红色：负）。对应于正样本点（来自两个图像）的特征被训练为彼此更接近，而对应于负样本点的特征被训练为相隔一定距离。在最后L2归一化之前和FCNN之后，设置一个卷积空间变换器来归一化补丁或考虑更大的上下文信息。

下图是视觉对应的对比损失函数示意图：需要三个输入，从图像中提取的两个密集特征及其坐标，和用于正负对应对的表。损失函数计算公式如下

其中s=1位正对应对，而s=0为负对应对。

如图比较卷积空间变换器和其他方法的比较：（a）SIFT标准化旋转和缩放；（b）空间变换器将整个图像作为输入来估计变换；（c）卷积空间变换器对特征进行独立变换。

DGC-Net【5】

DGC-Net（Dense Geometric Correspondence Network）【5】是一种基于CNN实现从粗到细致密像素对应图（pixel correspondence map）的框架，它利用光流法的优势，并扩展到大变换，提供密集和亚像素精确的估计。训练数据来自合成的变换，也应用于相机姿态估计的问题。

如图所示，一对输入图像被馈入由两个预训练的CNN分支组成的模块，这些分支构成一个特征金字塔。相关层从金字塔的粗层（顶）获取源图像和目标图像的特征图，并估计它们之间的成对相似性。然后，对应图（correspondence map）****获取相关层（correlation layer）的输出并直接预测该金字塔在特定层的像素对应关系。最后，以迭代方式细化估计。

为了在特征空间中创建输入图像对的表示，构造了一个有两个共享权重分支的Siamese神经网络。分支用在ImageNet训练的VGG-16架构，并在最后的池化层截断，然后进行L2归一化。在每个分支的不同部分提取特征fs，ft创建具有5-层特征金字塔（从顶部到底部），其分辨率是[15×15, 30×30, 60×60, 120×120, 240×240]，在网络训练过程的其余时间固定CNN分支的权重。

为估计两个图像之间的相似性，计算源图像和目标图像的标准化特征图之间的相关体积。不同于光流法，直接计算全局相关性并在相关层前后做L2标准化以强烈减少模糊匹配（见图所示）。

将相关层输出送到5个卷积块（Conv-BN-ReLU）组成的对应图****，估计特征金字塔特定层l 的2D致密对应域ω(l)est。这是参数化估计，图中每个预测像素位置属于宽度和高度归一化的图像坐标区间[-1,1]。也就是说，上采样在（l-1）层的预测对应域，让第l层源图像的特征图变形到目标特征。最后，在上采样域，变形源fs(ω(l)est)和目标ft(l)的特征沿着通道维度拼接在一起，并相应地作为输入提供给第l级的对应图****。

****中每个卷积层被填充以保持特征图的空间分辨率不变。此外，为了能够在金字塔的底层捕获更多空间上下文信息，从l = 3开始，将不同的空洞（dilation）因子添加到卷积块以增加感受野。特征金字塔创建者、相关层和对应图****的分层链一起组成CNN架构，称为DGC-Net。

给定图像对和地面实况像素相关映射ωgt，定义分层目标损失函数如下：

其中||.||1是估计的对应图和GT对应图之间的L1距离，M(l)gt 是GT二值掩码（匹配掩码），表示源图像的每个像素在目标是否具有对应关系。

除了DGC-Net生成的像素对应图之外，还直接预测每个对应的置信度。具体来说，通过添加匹配（matchability）分支来修改DGC-Net结构。它包含四个卷积层，输出了概率图（参数化为sigmoid函数），标记预测对应图每个像素的置信度，这样架构称为DGC + M-Net。把此问题作为像素分类任务，优化一个二值交叉熵（BCE），其中逻辑损失（logits loss）定义为：