半监督语义分割前沿
来源丨MCPRL
导读
传统语义分割在很多任务上已经达到了很好的性能,然而这需要大规模完全标注的数据集,这无疑需要昂贵的人力物力财力。半监督语义分割旨在利用少量标注样本和大量的未标记样本解决标注难度大、标注成本昂贵等问题。本文将焦距近期半监督语义分割的前沿论文,分析其方法和特点并给出总结。
1 背景
定义:使用大量的未标记数据,以及同时使用标记数据,来进行语义分割。常用数据集:PASCAL VOC 2012;Cityscapes等常用分割网络:不同backbone的deeplabv3+;HRNet;PSPNet等常用方法:主要包括Pseudo-Labels based和Consistency based,Pseudo-Labels based就是基于伪标签进行监督学习的方法, 一般就是模型对unlabeled data预测伪标签,然后进行监督学习;Consistency based就是利用数据增强、网络扰动等方法,但认为模型的输出应该保持一致,可以看作一种正则化方法以提高模型的泛化性,防止网络对有标签数据的过拟合,让模型提取出最本质的特征。
2 论文列表
本文分析的论文如下:3 ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation
第一篇就是CVPR2022的ST++,它具有两大出发点:- 对于半监督语义分割来说,一些精细的机制(指加的一些tricks)是必不可少的吗?更重要的是,self-train对于这项任务来说已经过时了吗?针对这个出发点,作者就使用self-train策略,利用常用的数据增强,而没有用其他花哨的tricks,产生ST模型
- 第二个出发点就是,以前的方法,同时利用了所有的unlabeled data,而不同的未标记图像不可能同样简单,对应的伪标签也不可能同样可靠,因此在使用有些不可靠的伪标签迭代优化模型时,会导致严重的预测偏差和潜在的性能下降。因此,作者提出ST++进行重新训练,它会基于伪mask在不同迭代轮次中的整体稳定性自动选择和优先排序更可靠的图像,为剩下的不可靠的图像生成更高质量的人工标签。
- 【有监督预训练】在有标签图像上完全训练得到一个初始的教师模型T
- 【生成伪标签】用教师模型在所有的无标签图像上预测one-hot伪标签
- 【重新训练】混合有标签图像和无标签图像及其伪标签,在其上重新训练一个学生模型S,用于最终的测试
- 在labeled data上训练T,并根据meanIOU筛选可靠的unlabeled data
- 用labeled data和可靠的unlabeled data第一次训练S
- 训练好的模型对不可靠的unlabeled data重新预测生成伪标签
- 用所有数据对S进行第二次训练
- 整个训练过程还可以继续迭代,利用自身模型性能的提升和数据不断清洗形成正反馈。
4 Semi-Supervised Semantic Segmentation With Cross Pseudo Supervision
这一篇CPS来自于CVPR2021,,其思想非常简单,就是利用网络扰动,即两个具有相同架构的不同初始化的网络进行交叉监督,来达到提升模型预测稳定性的作用。它结合Cutmix数据增强和CELoss就可达到当时SOTA。5 Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation
这篇文章也是出自CVPR2022,是一个利用一致性损失的经典方法。它主要贡献就是:1. 通过一个新的辅助教师和一个更严格的信心加权的CE损失(Conf-CE)来替代MT的MSE损失,提高了未标记训练图像的分割精度,和更好的收敛——架构、损失函数层面2. 结合使用输入数据、特征和网络扰动,以改进模型的泛化3. 提出一种新型的特征扰动,称为T-VAT,基于从我们的MT模型的教师那里学习到的对抗性噪声,并将其应用于学生模型,从而产生具有挑战性的噪声,以促进学生模型的有效训练。——扰动层面6 Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels
7 Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning
这是NIPS2021的一篇,着重于解决长尾、类不平衡问题,比如说Cityscapes数据集,头部类别的像素数远多于尾部类别几百倍。为了应对数据集中的这种问题,本文提出了三大自适应策略:1)自适应复制-粘贴和CutMix数据增强方法,为表现不佳的类别提供更多被复制或剪切的机会2)自适应数据采样方法,鼓励从表现不佳的类别中采样像素3)一种简单而有效的重加权方法,以缓解伪标记带来的训练噪声8 Enhancing Pseudo Label Quality for Semi-Supervised Domain-Generalized Medical Image Segmentation
这一篇是用在医学图像CT上的半监督域扩展语义分割,解决Domain-Generalize问题:训练数据由来自三个源域的标记图像和未标记图像组成,且不知道域标签,而测试数据来自一个未知分布。方法主要是借鉴CPS交叉监督提出 confidence-aware cross pseudo supervision,并且使用了使用傅里叶特征做数据增强。9 Collaborative and Adversarial Learning of Focused and Dispersive Representations for Semi-supervised Polyp Segmentation
- 这篇是半监督方法用在息肉分割上的,主要提出了两个提取模块,在两个分割网络的编码路径上分别采用FEM和DEM。FEM使我们的网络能够捕捉到输入特征图的重点信息,如位置信息和空间信息,而DEM试图聚合输入的零散边界信息。
- 同时训练两个分割网络和一个discriminator网络标记图像通过对抗训练方法。在一致性约束的帮助下,我们可以利用FEM和DEM的两种特征映射,通过训练好的鉴别器网络生成具有高可信度的置信度映射;
- 提出了另一种对抗训练方法——辅助对抗学习(AAL),以提高半监督训练阶段未标记图像分割预测的质量。我们采用一种新的鉴别器对有标记图像的分割结果分配真标签,对无标记图像的预测分配假标签。使用AAL可以得到可信度较高的置信图,从而更好地应用于分割网络
10 总结
- 半监督语义分割目前的改进方向主要包括:图像、特征、网络层级的扰动;网络架构(目前较少);损失函数(更细的改动,结合consistency-based 和 pseudo-based);训练策略(更细致的策略)
- 可融合的方向:对比学习、相似度学习可作为突破口,可能可以结合弱监督、无监督方法。
撰稿人、排版人:董军豪
本文仅做学术分享,如有侵权,请联系删文。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。