"); //-->
编者按:西汉刘安的《淮南子·说山训》中有这样一段话:
“见一叶落,而知岁之将暮;睹瓶中之冰,而知天下之寒.”
这两句话显示了人见微而知著的能力,人对这个世界的认知,是在对周围世界的不断探索过程中逐步形成的。从第一次张开双眼观察这个世界,到对这个世界的每一次发问,我们在父母的监督之下成长,整个学习过程也是伴随着外部反馈的大量监督信息。
我们一直试图让机器像人一样学习,因此,在目标检测分类任务中,我们为机器提供了海量的有监督数据,使得机器在某些特定领域甚至取得了远超人类的能力。
然而,对于语义分割任务,大量的像素级别的标注意味着无法想象的人工成本,与之相对应,人对视野内目标的语义分割,也无需以精细到像素级别的监督信息为保障,而只需以弱监督作为辅助。因此,学术界衍生出了针对弱监督的语义分割这一前沿方向。
今天,来自美国伊利诺伊大学香槟分校的魏云超博士,将以一片叶子作为“种子点”出发,带着大家深度学习,直至扩散出整幅图像中秋色的mask。
文末,大讲堂提供文中提到参考文献的下载链接。

本报告主要是针对弱监督视觉语义分割问题来介绍一下近两年来的一些工作。

对于语义分割,目前大家用到最多的就是这种全卷积网络。在全监督训练的情况下,我们需要给定训练图片及其对应的像素级标注的mask。然而这种像素级的mask往往很难获取。

比如,我们如果要在ImageNet上做语义分割的话,其标注的工作量会非常大。具体地,ImageNet上大概包括了2万类别,如果每一类我们只标100张图片用于训练的话,最终则需要标二百万的训练图片。如果标注一张图片需要五分钟,则一个人大概需要标注19年才能完成。因此大规模图像的全监督语义分割往往在数据标注上需要耗费大量的时间和金钱。

因此我们考虑对于语义分割任务能否采用一些相对于像素级标注更容易获取的标注作为监督信息。这里我们给出了四种简单的标注方式,包括物体框、线条、点以及图像标签。我们称这些比像素级mask更容易获取的监督方式为弱监督。一般来讲,在这些弱监督信息中图像级的标签最容易获取。

所以我们接下来的工作也都是围绕如何利用图像级的标签作为监督信息,最终实现像素级别的分类。实现这一目标的关键是如何构建训练图像中图像标签和像素之间的关联,即自动的推断出物体在图像中的位置。进而实现弱监督的物体定位或语义分割等任务。

这是我们根据近两年在弱监督学习上的一些工作,主要探索了如何有效构建图像语义标签和像素之间的关联。这些工作在弱(半)监督的语义分割或定位等任务上都取得了当时最好的性能。

首先是最早在PR上面一篇文章,我们提出了一种Proposal-based的方法来构建图像标签跟语义之间的关联。

这篇文章的思路是训练一个多标签的分类网络,进而利用该网络对图片产生的proposal进行分类,最后将那些在某个类别上confidence比较高的proposal映射回原来的图片,从而获得语义标签和localization的关联。我们利用这种粗糙的localization图作为监督信息训练语义分割网络。

我们利用了当时提出的Hypotheses-CNN-Pooling网络,训练了用于判别proposal类别的分类网络。最后利用那些高confidence的proposal生成物体的定位图。虽然这个工作当时取得了比较高的分割性能,但有两个明显的缺点。首先,该方法需要对所有的proposal都做一次分类,因此会有较高的时耗。其次,直接将proposal内的像素点作为物体区域会引入很多false positive像素,比如属于背景的像素。

为了克服proposal-based方法的缺点,我们在2017年提出了一种Simple to Complex的方法。

这个方法基于了一个有意思的观察。我们发现Internet上的图片可以大致分为两种,即简单图片和复杂图片。简单图片主要是指图片中的物体类别单一并且背景比较干净;复杂图片主要是指图片中物体类别语义多样并且背景非常杂乱。我们发现对于简单图片,可以通过显著性检测技术有效地获取包含前背景信息显著图。

从上面的图中可以看出,在显著图上像素值越高,其同语义的关联性就越大。因此在知道简单图片语义标签的情况下,我们很容易通过显著图构建语义标签跟像素点的关系。

专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
NVIDIA带动硅光子话题 然而「光铜并存」才是现实?
消息称Meta自研芯片梦受挫:最先进芯片夭折,靠合作寻求替代方案
英飞凌碳化硅功率半导体成功应用于丰田“bZ4X”新车型
严苛航空航天与国防系统中的电磁干扰(EMI)滤波
Bourns® 高电压、高能量 GDT 系列以精巧尺寸封装中提供业界领先的浪涌保护性能
[注意]那位大侠有iar arm 3.21a 的 解密
[Android开发视频教学]搭建Android开发环境(02)
从工具到平台:如何化解跨架构时代的工程开发和管理难题
ADS8364 的原理及应用
对3G市场未来需求强劲持怀疑 AT&T缩减3G规模
首届国际 IC 电子商务信用论坛暨 TBF 世界会员交流会深圳站视频
MAX11200 微功耗(<1mW)、24位ADC
[Android开发视频教学]Android平台一日游(01)
ALTERA器件资料
SNS-200P1热释电红外报警器电路图
华为冬天不期而至 业绩急速下滑资金压力空前
从汽车到数据中心,联发科MWC 2026巴塞罗那展示丰富技术
电子看门狗电路图
折痕优化达40%以上:京东方发布镜感“0痕”折叠显示屏
AMI8563I2C 实时时钟/日历芯片
防触电告警器电路图
从创客工坊到AI课堂:一篇文章带你认识全球开源硬件“大家族”
防盗报警电话系统电路图
Adobe Reader v7.00 简体中文版
[Android开发视频教学]say_hello_to_Android(03)
古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底
如果你不幸做了程序员,那么……
曾经的程序员
一步一步基于ADS1.2进行设计开发(上)
婴儿睡眠状态临视器电路图