【领域报告】图像OCR年度进展|VALSE2018之十一（1）

发布人：深度学习大讲堂时间：2020-12-17 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

编者按：

“清风不识字，何事乱翻书。”

早在1929年，德国科学家Tausheck提出了OCR的概念，定义为将印刷体的字符从纸质文档中识别出来。而技术发展至今，识字，已不再仅限于识别书本上的文字，而是要识别真实世界开放场景中的文字。因此，也衍生出了一系列问题，例如真实环境中文字角度不可控、语种复杂多样、环境噪声多变等，针对这些问题，学术界开展了OCR领域研究工作。本文中，来自华中科技大学的白翔教授，将为大家介绍过去一年中，OCR领域的研究进展。

文末，大讲堂提供文中提到参考文献的下载链接。

报告从文本检测，文本识别，端到端识别，还有数据集四个方面展开。

文本检测方面。首先是去年自动化所发表在ICCV的研究成果。之前的回归方法大多为计算给定的default box和待要检测的文本框的offset，而这里采用的是基于一个像素点回归的方法，也就是回归文本框与当前像素点的offset。另一个区别是融合不同层的特征，通过多任务学习进行文本分割以及文本框的回归。整体上，他们的工作在场景文字检测任务上带来了一定性能上的提升。

另外一个工作是用全卷积网络将文本区域分成三种类型，第一种类型是文本内部区域，第二种类型是背景区域，第三种类型是文字的边界。这种手段可以较好地应对之前的基于分割的场景文本检测方法难以区分相邻的文本实例的问题，从而带来检测性能的提升。

上面这项工作的思路相对比较简单，就是在SSD基础上加了一个模块，这个模块引入了attention的机制即预测text mask，通过文本和非文本的判别让检测更加关注到文本区域上。

这是百度的工作，做法也比较直接：通过一个弱监督的框架使用单词级别的标注来训练字符检测器，然后通过结构分析将检测到的字符组合成单词。

这篇是我们今年发表在TIP上面的一篇工作。其主要改进点为在去年TextBoxes基础上增加了额外的两个分支，其中一个分支被用来回归文字水平包围盒，另外一个分支被用来回归四边形（表示为4个顶点）。此外，我们还用识别信息来过滤检测到的候选框，进一步提升检测结果。

这是我们今年被CVPR接收的一篇文章。其主要思路是：对于文本来说，无论是回归还是分类，特征往往是共享的。然而对于场景文本检测问题来说，特征共享对于这两个任务其实是不利的。首先对于文本与背景的分类问题，一般要求特征具有方向不变性。但是对于回归出文本的包围框这个任务，又要求特征对方向信息是敏感的。因此直接对这两个任务做特征分享可能会带来性能损失。这里我们采用非常简单的方法来解决这个问题，就是在应对回归和分类两个不同任务时，在回归部分跟原来一样，在分类部分中加入oriented response pooling。这个做法可以让分类特征具有旋转不变性，可以更好地关注它是文本还是非文本的问题，方向不带来额外影响。最后对两个任务进行多任务学习，可以提高性能，在应对长文本和方向变化比较剧烈的情况，提升尤为显著。

这篇同样是我们今年被CVPR接收的一篇场景文本检测的文章。这项工作主要是为了解决场景文本多方向，长宽比变化较大等场景文本检测中的难点问题。之前的方法大多采用包围盒回归的方法或者文本区域分割的方法去解决上述问题，但是效果并不是特别好。本篇文章用了一个新的思路来解决这个问题，即检测文本区域的角点，然后通过组合角点的方式得到文本框。因此，我们设计了corner detection，思路是直接检测文本区域的四个顶点。由于我们是检测角点，所以首先我们的方法不会受到感受野的影响，其次我们的方法对方向比较鲁棒。此外我们还结合了position sensitive segmentation来提供文本区域的位置信息以及文本的实例信息，并使用segmentation map信息为角点组合成的包围盒进行打分，这比直接计算包围盒得分更加鲁棒。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。