让机器“解疑释惑”：视觉世界中的结构化理解|VALSE2018之八（2）

发布人：深度学习大讲堂时间：2020-12-20 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

关于深度学习，研究者得到最多的信息就是要设计很好的学习方法以及很好模型设计方式，使得模型变得越来越深。是不是把模型变得更深就是我们唯一的出路呢？另外一个问题是做视觉研究者对于问题的观察以及理解是不是也会有帮助？为了回答这个问题，我们设计了GBD-Net。GBD-NET利用上下文信息，帮助我们识别所感兴趣的物体是什么。

计算机视觉研究者很早就知道上下文信息对于识别物体有帮助。有了深度学习模型以后怎样考虑上下文信息呢？我们考虑的是可以学习不同上下文信息的特征之间的关系。比如说，现在有一个特征对应的是兔子的耳朵，它是比较少的上下文的信息，可以推测到下面应该有兔子的头。因此兔子耳朵这样比较少上下文的特征和兔子头这个比较多的上下文特征，反之亦然。由此可见，不同上下文信息的特征之间可以互相验证。

而另外一方面如果看见一个兔子耳朵并不一定下面就有兔子的头，如上图中的反例。在这种情况下，如果我们看见下面不是兔子的头，而是一个人的脸，我们希望的是让这个兔子的耳朵不要传递信息给兔子的头。因此信息是需要传递的，但是信息的传递是需要受到控制的。

基于已有的检测网络基础上我们设计了GBD-Net。它利用已有网络结构得到不同上下文特征。有了不同上下文信息特征以后，开始进行信息传递。

可以把信息从上往下传，也就是让上下文信息比较少的特征传递给上下文信息比较多的特征。也可以进行反向的传递，就是把上下文信息比较多的特征传递给上下文信息比较少的特征。我们将两组通过不同方向传递的特征会进行结合，也引入一个函数来帮助我们控制信息的传递。

经过信息传递以后，这些特征将会被得到修正，我们利用修正特征帮助我们做最终检测的任务。

实验发现在不同的数据库和不同网络结构中，使用我们这样的特征之间传递信息的方法，效果都可以得到很好的改善。我们利用这个方法参加了2016年的竞赛，在静态物体检测和动态视频物体检测跟踪中我们都取得第一名。

对GBD-Net进行总结。第一点，特征仍然是重要的。第二点，视觉工作者基于专业知识对于问题的观察和分析同样重要。第三点，我们使用深度学习，把它当做一个工具来帮助将特征之间的关系进行建模。具体而言，我们设计的GBD-Net是在不同上下文特征之间进行信息传递。论文相关代码可以扫描二维码。

刚才所做的只是在物体检测中，是不是这个特征之间的结构建模只是适用于物体检测呢？其实不是这样的，它在其他很多工作中也是有效的。比如说在人体姿态识别中，我们考虑每一个人体的关键点都是一个特征，在这些特征中可以进行信息传递。可以考虑每个关键点分别对应的一组特征，有了对应特征以后可以把对应特征认为是结点，有了结点以后可以考虑人体关键点树型结构，在树形结构上的各个结点之间进行信息传递。论文相关代码在：

https://github.com/chuxiaoselena/StructuredFeature.