高新波：异质图像合成与识别（2）

发布人：深度学习大讲堂时间：2020-11-12 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

我们首先来简要看一下data-driven的相关内容。

上图是汤晓鸥教授最早在ICCV2003上发表的一个名为Eigen-Sketch的工作。利用Eigenface的思想，对照片利用训练样本进行线性组合生成，得到照片线性组合的系数以后，将组合系数叠加到画像上，可以合成出画像。这是最早的异质图像合成的工作，也是奠基性的工作。

上图是刘青山教授在CVPR2005上提出的改进工作。受启发于当时如火如荼的流形学习，他认为把整幅图像进行合成的做法存在不足，他利用LLE的思想把照片分割成一个个照片块或者画像块，再对每一块进行线性组合，组合以后把对应画像利用对应的系数合成照片，这样就把整幅图像的线性转变成局部线性嵌入。

在上述工作中仍然存在两个问题。一是选择K近邻来线性组合，K值是固定的，有的时候K个近邻块的距离是比较近的，有的时候却是比较远的，如此线性组合以后会出现模糊。这个时候正是稀疏表示发展起来的时候，我们基于稀疏表示做了相应的改进工作。

另一方面，由于线性叠加相当于低通滤波，为了使它更清晰我们又加了高通增强，对高频成分也进行线性组合以后叠加上。利用稀疏表示来自适应选择K值，K是动态变化的。另外把高频分量也进行类似学习，合成以后得到比较清晰的画像。具体算法这里不再赘述，我们在相应数据库上做了很多实验。

上图是香港中文大学做的数据库，这个数据库共有606张照片。

我们利用照片可以生成相应的画像，上图是我们生成的画像，中间一行只是利用稀疏表示生成的画像，显然不够清晰。

同样给一个画像可以反过来生成照片的例子，上图我们生成的照片。

相似的技术还可以用在其他方面，比如说我们在公安部数据库看照片的时候，都是打着网纹的，这是一种数据保护。通过我们的技术可以实现去网纹的工作，上图展示了我们的效果。

另外，同样的技术还可以利用非正面的、侧面的照片合成正面照片。

实际上，基于data-driven的方法也还存在其它问题。比如，上图所示的训练数据库里面没有出现的情况我们很难合成出来。比如说背景不一样，或者训练数据库里面都是年轻人，香港中文大学的数据库中的照片都是年轻人的，如果合成老年人，它的皱纹很难合成出来；如果数据库里面没有戴眼镜的，要想合成戴眼镜很难，因为我们眼睛的合成区域总是找相应的眼睛区域来合成的。这样就使得合成出的画像与待测试样本之间有差别，为此我们利用稀疏表示和贪婪学习的方法设计新的方法，就是进行全局搜索。

原先我们的合成是基于local mean的，这个新的学习算法实际上是一个nonlocal mean。nonlocal mean存在一个问题，如果我们要搜索一个眼睛的话，需要在整幅图上搜索它的近邻区域，这样的整幅图像搜索速度非常慢，为此我的团队提出了上图所示的基于稀疏表示的贪婪学习方法。利用训练样本我们可以构造一个字典，把每一个图像块利用字典来表示，得到基于字典的表示系数，形成一个稀疏系数矩阵，这样来一个测试图像以后，同样的也可以用字典来表示成一个系数序列。进行匹配的时候就像一个哈希搜索一样就变得非常快，这样一来就解决了快速全局搜索的问题。

上图是我们和其他方法合成效果的对比图。对于第一行戴发卡的女孩，其他方法生成出来很难有发卡，我们的方法可以很好地把发卡合成出来。同样戴眼镜的照片也是，以前的方法本身合成不出来眼镜，因为训练样本里面没有人戴眼镜，但是通过全局学习，眼镜可能就是利用他的下巴合的轮廓成出来，这样一来可以合成训练样本中没有的细节信息。