专栏中心

EEPW首页 > 专栏 > 白翔：复杂开放场景中的文本理解（2）

白翔：复杂开放场景中的文本理解（2）

发布人：深度学习大讲堂时间：2020-12-15 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

接下来介绍基于部件的方法SegLink，它的核心思想是将文本行分解成两种可检测的元素：定义为部件（segment）和关联（link）。部件是指文本行的一部分（图中黄色部分），关联是指连接两个相邻部件的联系（图中绿色短线），被关联表明其属于同一单词或者文本行。基于segments和links，整个文本行可以通过一个简单的组合表达出来。因为Segments和Links不涉及感受野问题，所以这个思路可以处理长文本行。

如图是SegLink的检测框架图，我们依旧使用SSD作为基础框架，采用VGG16检测模型，通过多层CNN同时检测segments和links，跨层连接是对不同层的两个segments的连接，它也是通过计算得到的，因为相邻的segments可能不会来自同一层。

从在MSRA-TD500和ICDAR2015两个数据集上的测试结果来看，我们的SegLink方法对方向不确定的文本行和中英混合的文本都有较好的检测性能。

事实上，SegLink不仅能够处理长文本行，还可以很好地检测弯曲排列的文本行。如图，星巴克的logo字母是弯曲排列的，而SegLink可以灵活地适应它的文本形状。

场景文字识别

CRNN model

针对场景文字识别，这里主要讲述两个算法，针对整齐规则文本的CRNN模型，和针对不规则形文本的RARE模型。首先介绍CRNN：

该网络由三个部分组成：一个CNN网络，一个RNN网络和CTC损失。CNN（卷积神经网络）从输入图片提取特征，然后我们将图片特征转化为特征序列，作为序列标签输入到LSTM中，最后CTC(Connectionist temporal classification) loss将序列标签转化为文本。将这三个部分组合从而可以端到端地训练。

我们将每一个像素宽度图片的深度特征看作一帧，通过这种方法，可以从左到右获得一个帧序列，每一帧对应原始图像中的局部区域。

针对开放字典数据集，我们的方法在识别精度上达到了当时的state-of-the-arts。CRNN还具备以下优势：可以端到端训练；且不受字符标注的约束，这意味着我们可以直接输入文本行进行训练和测试；它没有字典集的限制，因此我们可以将其用于其他序列的识别，比如识别****上的数字；在模型大小上，它比主流的模型参数减少了40～50倍，更有利于在工业实际场景中落地。

RARE model

对于形状不规则的文本行，我们提出了RARE（Robust text recognizer with Automatic REctification）模型来解决。

如图，由于拍摄视角的变化、文字曲形的排列方式等因素影响，自然场景图片中的文本形状常常是不规则的，如图中SVT-Perspective和CUTE80数据集所示，这就给识别造成了极大的困难。CRNN可能对此类情形并不奏效，它是在输入文本水平的前提下提出来的，因此我们提出了RARE。

我们设计的网络由两部分组成，空间转换网络（STN, Spatial Transformer Network）和序列识别网络（Sequence Recognition Network）。其中，STN负责修正输入图片，使其图片中文本呈水平形，SRN负责识别文本。这两个网络通过反向传播进行联合训练，上图中的虚线就表示反向传播。

SRN包含一个编码器和一个****。编码器由一个ConvNet和一个Bi-LSTM组成，用来生成特征序列表达，****是一个基于注意力机制的字符生成器，根据输入序列循环地产生字符序列，根据每一步的注意力机制来解码相关内容，上图展示了SRN在各数据集上的识别精确度。

区别于CRNN模型中的****，我们使用基于注意力机制的模型作为RARE的****。****逐步将一些特征帧解码为一个字符，但由于某些帧中的形变，****可能会输出一些错误的识别结果。