专栏中心

EEPW首页 > 专栏 > 白翔:复杂开放场景中的文本理解(2)

白翔:复杂开放场景中的文本理解(2)

发布人:深度学习大讲堂 时间:2020-12-15 来源:工程师 发布文章

接下来介绍基于部件的方法SegLink,它的核心思想是将文本行分解成两种可检测的元素:定义为部件(segment)和关联(link)。部件是指文本行的一部分(图中黄色部分),关联是指连接两个相邻部件的联系(图中绿色短线),被关联表明其属于同一单词或者文本行。 基于segments和links,整个文本行可以通过一个简单的组合表达出来。因为Segments和Links不涉及感受野问题,所以这个思路可以处理长文本行。

17.jpg

如图是SegLink的检测框架图,我们依旧使用SSD作为基础框架,采用VGG16检测模型,通过多层CNN同时检测segments和links,跨层连接是对不同层的两个segments的连接,它也是通过计算得到的,因为相邻的segments可能不会来自同一层。

16.jpg

从在MSRA-TD500和ICDAR2015两个数据集上的测试结果来看,我们的SegLink方法对方向不确定的文本行和中英混合的文本都有较好的检测性能。

15.jpg

事实上,SegLink不仅能够处理长文本行,还可以很好地检测弯曲排列的文本行。如图,星巴克的logo字母是弯曲排列的,而SegLink可以灵活地适应它的文本形状。

场景文字识别

CRNN model

14.jpg

针对场景文字识别,这里主要讲述两个算法,针对整齐规则文本的CRNN模型,和针对不规则形文本的RARE模型。首先介绍CRNN:

13.jpg

该网络由三个部分组成:一个CNN网络,一个RNN网络和CTC损失。CNN(卷积神经网络)从输入图片提取特征,然后我们将图片特征转化为特征序列,作为序列标签输入到LSTM中,最后CTC(Connectionist temporal classification) loss将序列标签转化为文本。将这三个部分组合从而可以端到端地训练。

12.jpg

我们将每一个像素宽度图片的深度特征看作一帧,通过这种方法,可以从左到右获得一个帧序列,每一帧对应原始图像中的局部区域。

11.jpg

针对开放字典数据集,我们的方法在识别精度上达到了当时的state-of-the-arts。CRNN还具备以下优势:可以端到端训练;且不受字符标注的约束,这意味着我们可以直接输入文本行进行训练和测试;它没有字典集的限制,因此我们可以将其用于其他序列的识别,比如识别****上的数字;在模型大小上,它比主流的模型参数减少了40~50倍,更有利于在工业实际场景中落地。

RARE model

10.jpg

对于形状不规则的文本行,我们提出了RARE(Robust text recognizer with Automatic REctification)模型来解决。

9.jpg

如图,由于拍摄视角的变化、文字曲形的排列方式等因素影响,自然场景图片中的文本形状常常是不规则的,如图中SVT-Perspective和CUTE80数据集所示,这就给识别造成了极大的困难。CRNN可能对此类情形并不奏效,它是在输入文本水平的前提下提出来的,因此我们提出了RARE。

8.jpg

我们设计的网络由两部分组成,空间转换网络(STN, Spatial Transformer Network)和序列识别网络(Sequence Recognition Network)。其中,STN负责修正输入图片,使其图片中文本呈水平形,SRN负责识别文本。这两个网络通过反向传播进行联合训练,上图中的虚线就表示反向传播。

SRN包含一个编码器和一个****。编码器由一个ConvNet和一个Bi-LSTM组成,用来生成特征序列表达,****是一个基于注意力机制的字符生成器,根据输入序列循环地产生字符序列,根据每一步的注意力机制来解码相关内容,上图展示了SRN在各数据集上的识别精确度。

区别于CRNN模型中的****,我们使用基于注意力机制的模型作为RARE的****。****逐步将一些特征帧解码为一个字符,但由于某些帧中的形变,****可能会输出一些错误的识别结果。

7.jpg

在识别之前,我们可以引入一个空间变换网络STN(Spatial Transformer Network)来修正不规则文本图片。

6.jpg

这里具体讲解一下STN的结构。首先定位网络生成一组基准点C,然后在网格生成器中,从基准点计算TPS变换的参数,在原图上生成一个采样网格P,采样器同时提取网格P和输入图片I,以此输出一个修正后的图片。

STN的一个特点是其采样器是可微的,因此只要有一个可微的定位网络和一个可微的网格生成器,STN就可以反向传播误差并得以训练。

5.jpg

网格生成器估计TPS变换的参数,并产生一个采样网格。如上图,原图中基准点是C,修正后图中定义基准点为C’,网格生成器计算TPS变换的参数T,采样器将原图I 修正为I’。上表显示,相比于单独使用SRN,添加STN可以大幅度提高识别效果,特别是对于一些有形变的文本数据集。

4.jpg

尽管STN校正有效地提高了识别率,但是对于严重弯曲的文本图片它的性能并不理想。因此,我们用带有边界点标注的文本数据作为定位网络的监督信息训练,实验表明,识别率有显著提升。

3.jpg

如图,是STN对SVT-Perspective和CUTE80两个数据集中有形变文本的修正结果。

2.jpg

另一个有趣的发现是,将检测和识别结合起来,可以使得最终检测的准确率有极大提升。如图,输入图片通过检测器检测出来目标区域后,将检测的区域抠取出来输进识别器,这种组合使得很多误检可以被过滤掉,也就是说最终检测的性能提升了。

1.jpg

我们对检测得分和识别得分求取调和平均值,最终从ICDAR2015上的实验结果看出,这种组合有效提高了文本检测的效果。

专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词:

相关推荐

苹果将前通用汽车工厂出售给神秘买家,因未能生产电动汽车

960 颗类脑芯片,浙大「悟空」出世

采用电源路径电池充电器优化应用

美光发布 G9 NAND SSD 用于人工智能,发送全球首款 PCIe Gen6 NVMe 样品

Microchip Technology AVR SD 8位MCU在贸泽开售

据报道英伟达本月计划在中国削减 RTX 50 系列价格因销量疲软

电子科技大学--嵌入式系统应用开发技术32

Gartner预测2025年全球终端用户信息安全支出将达到2130亿美元

电子科技大学--嵌入式系统应用开发技术35

电子科技大学--嵌入式系统应用开发技术31

电子科技大学--嵌入式系统应用开发技术33

中国铁塔(788.HK)公布2025年中期业绩

据报道,台积电的 2 纳米节点计划在 2026 年每月产量达到 60K,价格比 3 纳米高 50%

EDA/PCB 2025-08-05

电子科技大学--嵌入式系统应用开发技术34

美国利用微软系统漏洞对我国防军工领域实施网络窃密攻击

2025-08-05
更多 培训课堂
更多 焦点
更多 视频

技术专区