"); //-->

关于深度学习,研究者得到最多的信息就是要设计很好的学习方法以及很好模型设计方式,使得模型变得越来越深。是不是把模型变得更深就是我们唯一的出路呢?另外一个问题是做视觉研究者对于问题的观察以及理解是不是也会有帮助?为了回答这个问题,我们设计了GBD-Net。GBD-NET利用上下文信息,帮助我们识别所感兴趣的物体是什么。

计算机视觉研究者很早就知道上下文信息对于识别物体有帮助。有了深度学习模型以后怎样考虑上下文信息呢?我们考虑的是可以学习不同上下文信息的特征之间的关系。比如说,现在有一个特征对应的是兔子的耳朵,它是比较少的上下文的信息,可以推测到下面应该有兔子的头。因此兔子耳朵这样比较少上下文的特征和兔子头这个比较多的上下文特征,反之亦然。由此可见,不同上下文信息的特征之间可以互相验证。
而另外一方面如果看见一个兔子耳朵并不一定下面就有兔子的头,如上图中的反例。在这种情况下,如果我们看见下面不是兔子的头,而是一个人的脸,我们希望的是让这个兔子的耳朵不要传递信息给兔子的头。因此信息是需要传递的,但是信息的传递是需要受到控制的。


基于已有的检测网络基础上我们设计了GBD-Net。它利用已有网络结构得到不同上下文特征。有了不同上下文信息特征以后,开始进行信息传递。

可以把信息从上往下传,也就是让上下文信息比较少的特征传递给上下文信息比较多的特征。也可以进行反向的传递,就是把上下文信息比较多的特征传递给上下文信息比较少的特征。我们将两组通过不同方向传递的特征会进行结合,也引入一个函数来帮助我们控制信息的传递。

经过信息传递以后,这些特征将会被得到修正,我们利用修正特征帮助我们做最终检测的任务。


实验发现在不同的数据库和不同网络结构中,使用我们这样的特征之间传递信息的方法,效果都可以得到很好的改善。我们利用这个方法参加了2016年的竞赛,在静态物体检测和动态视频物体检测跟踪中我们都取得第一名。

对GBD-Net进行总结。第一点,特征仍然是重要的。第二点,视觉工作者基于专业知识对于问题的观察和分析同样重要。第三点,我们使用深度学习,把它当做一个工具来帮助将特征之间的关系进行建模。具体而言,我们设计的GBD-Net是在不同上下文特征之间进行信息传递。论文相关代码可以扫描二维码。


刚才所做的只是在物体检测中,是不是这个特征之间的结构建模只是适用于物体检测呢?其实不是这样的,它在其他很多工作中也是有效的。比如说在人体姿态识别中,我们考虑每一个人体的关键点都是一个特征,在这些特征中可以进行信息传递。可以考虑每个关键点分别对应的一组特征,有了对应特征以后可以把对应特征认为是结点,有了结点以后可以考虑人体关键点树型结构,在树形结构上的各个结点之间进行信息传递。论文相关代码在:
https://github.com/chuxiaoselena/StructuredFeature.


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
Keil C51的动态内存管理机制分析与改进
拆解:任天堂 Switch 2
转帖
三菱FX系列PLC教程 73 —— FX系列的七段译码指令
印刷电路板行业呈现出微弱的复苏迹象
三菱FX系列PLC教程 72 —— FX系列的列表数据排列指令
提高W396/W496输出稳定度的应用电路(二)
提高W396/W496输出稳定度的应用电路(一)
LW80A××的典型应用电路
CAN资料
拆解:华硕Rog Ally X 2024
W723构成的输出电压和电流均可调的应用电路
“强化学习”推动自适应控制器的兴起
U-BOOT 与 MontaVista Linux 的移植
FullCAN函数库V1.0
三菱FX系列PLC教程 69 —— FX系列的斜波信号输出指令
拆解:Apple Watch Series 11 5G
三菱FX系列PLC教程 70 —— FX系列的旋转工作台指令
磁传感器容易被干扰?差分传感来拯救你!
AI电力激增背后的液冷管道
急购半导体收音机零件!!
W396/W496组成的输出电压可调的应用电路
昆腾计划裁员1100人 中国公司不会受到影响
拆解:Timekettle W4 Pro
芯驰科技E3650:为理想星环OS保驾护航
别这么做:忽略最坏情况下的执行时间
BANF与芯科科技携手推出智能轮胎监测解决方案 实现“最后的模拟领域”的数字化转型
中科院计算机所免费转让15项产品和技术
三菱FX系列PLC教程 71 —— FX系列的带锁存的七段显示指令
PCI2.2协议规范