"); //-->

角点检测使用的是基于DSSD的方法,此外我们将角点检测和文本区域的分割在同一个网络框架内实现。
从实验结果中可以看出用了角点以后检测性能提升比较明显。

第二个方面是关于文本识别的进展,进展稍微小一点,因为目前的识别性能已经比较好。

利用attention model去做序列文字识别,可能会因为图像分辨率较低、遮挡、文字间间隔较大等问题而导致attention位置并不是很准,从而造成字符的错误识别。海康威视在ICCV2017上提出使用字符像素级别的监督信息使attention更加准确地聚焦在文字区域,从而使识别变得更精准。他们用了部分像素级别的标注,有了类别信息以后做多任务,结果较为精准。并且只要部分字符的标注就可以带来网络性能的一定提升。

针对有形变或者任意方向文字的识别问题,Cheng等人在CVPR2018上提出了该模型。他们在水平方向之外加了一个竖直方向的双向LSTM,这样的话就有从上到下,从下到上,从左到右,从右到左四个方向序列的特征建模。接下来引入一个权重,该权重用来表示来自不同方向的特征在识别任务中发挥作用的重要性。这对性能有一定提升,尤其是对任意排列的文字识别。


端到端识别从ICCV2017开始出现了将检测和识别统一在一个网络框架下的思路。目前来说这种做法训练起来较为困难。它的主要思路是通过RPN产生一些proposal,然后在后面接上序列识别网络。为了使网络有效,往往需要对检测和识别模块分别进行预训练,预训练完后再把两个模块一起进行进一步训练。这种方法较为复杂。

其它方法也采用了大同小异的思路,比如去年ICCV的这篇文章,在RPN的基础上,加入能产生任意方向文字框的proposal,可以做任意方向文字的端到端识别。

这篇CVPR的工作也是大同小异,使用了更好的检测器EAST,识别部分和训练过程基本和之前端到端的识别工作类似。



最后我们介绍一些新的数据集。比如说去年icdar比赛中的中文数据集RCTW,以及多语言检测数据集MLT,同时包含了语种识别和检测任务。RCTW数据集主要由场景中文文字构成,总共包含了12,034张图片,其中训练集8034张,测试集4000张。比赛分为文字检测和端到端文字识别两部分。MLT数据集由6个文种共9种语言的文字图片构成,共18,00张图片。该比赛包括了文字检测、语种识别以及文字检测加语种识别三个任务。


另外是今年华南理工金连文老师提出的比较有意思的数据集,用来探讨异常排列、有形变的文字的检测和识别问题。该数据集共1000张训练图片和500张测试图片,每张图片包含了至少一个曲行文字样本。另外,ICDAR2017上也有一个类似的数据集Total-Text,包括了水平方向、多方向以及曲形文字共1555张图片。
总结一下,通过数据集的演变过程,关于场景文字的研究方法有这样几个趋势:第一,以后检测和识别端到端进行可能是一个趋势,但是未必一定把这两个任务接在一起;第二,处理更难的文字,例如不规则文字,可能也是一个有意思的方向;第三,方法的泛化能力,英文上结果比较好的模型在中文中不一定有效,中英文差别很大,应设计适应多语种的方法来解决这些问题。
参考文献链接:
https://pan.baidu.com/s/10LT47XsUpzBjHu8S9mcy7Q 密码: k2iv
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
Quectel Matter over Thread 模块,实现智能家居互作性
Boost变换器的输出电容
Melexis推出适用于机器人、工业及移动出行应用的16位电感传感器
AVR单片机原理及应用
IAR云就绪平台扩展对瑞萨RH850/U2x的支持,赋能新一代汽车电子开发
CPLD技术及其应用
Nordic Semiconductor用于医疗可穿戴设备的蓝牙低频输出系统
汽车电压监视电路
555汽车多用告警器电路
Microchip图形显示解决方案
Boost电路的电感选型
555汽车雨刷自动控制器电路
Advance Automotive将推出Catalyst IQ,一家以实时数据、人工智能和人类洞察为驱动力的营销科技机构
Every Woman In The World (测试)
Microchip PIC24FJ256DA210开发板在图形显示上的应用
[求助]tornado2那里有的下?
混合动力车在欧盟新车注册量中居首,截止十月
Keil C51 UV2调试命令(中文版)
I2C总线协议V2.1
Spacechips推动创新型AI赋能卫星应用发展
MSP430单片机TIMER_A在产品设计中的应用
600mA输出, 30V高压输入降压DC/DC转换器--MCP16301演示板
DSP芯片的原理与开发应用(书)
Nokia 7xxx手机原理图01
Embedded Real-time System
仿真器概念及实现技术
555汽车找寻装置电路
Microchip超低功耗LCD单片机PIC18F87K90
Keysight的手持分析仪在现场针对120 MHz IQ流
Microchip mTouch™电容触摸解决方案