"); //-->
相关应用
结合文本线索的细粒度图片分类

这里主要介绍场景文本检测识别的三方面应用:
1) 结合文本线索的细粒度图片分类;
2) 基于数字的行人重识别;
3) 从文本识别到行人重识别。

通常,只用图片直观的视觉信息是不足以进行细粒度图像分类的,如上图,看上去(a)和(b)是类似的,而实际上,(b)和(c)描述的是同一场景,且与(a)大不相同。我们仔细观察,(b)(c)中分别包含了语义相近的词“cafe”和“coffee”,这其实可以在图片仅有微小视觉差异的情况下帮助我们进行细粒度的图片分类。

自然场景图片中的文本包含了丰富的语义信息,它与目标或场景有着非常密切的关系。因此,我们将文本表达和深度视觉特征结合起来,训练一个全局的深度卷积神经网络。
整个端到端的算法流程如上图所示。首先使用一个已有的文本识别框架来提取出文本,然后通过word embedding提取这些文本的特征,同时,GoogLeNet对输入图片提取1024维视觉特征向量,为了消除文本中的噪声,我们又添加了一个注意力模型对提取出的文本分配权重,最后将视觉特征和文本特征基于一定的权重组合起来,利用多模态融合特征进行最终的分类。

如上图所示,图片中的一些文本不是与图片表达的内容密切关联的,它们会对后期分类造成干扰,因此我们使用了一个注意力模型来筛选对分类有帮助的文本。

为了验证算法的有效性,我们在两个数据集上进行了测试,一个是办公场所建筑数据集Con-Text,它包含28种场景,共24,255张图片。另一个是饮料瓶数据集Drink Bottle,它选自ImageNet数据集,含有20种饮料瓶共18,488张图片。这两个数据集图片都包含了文本,且不同种类间只有很小的视觉差异。

可以看出,添加文本线索后,在Con-Text和Drink Bottle上的识别性能都有大幅度的提高。

如图可以看出,网络中添加的注意力模型可以过滤掉错误的文本,并选择出与类别更相关的文本。

我们也将学习到的融合特征用于图像检索,如图,只用视觉信息可能会因为其差别过小引起误分类,而加入文本信息后,酒瓶图片检索的mAP提升了12.8%。
基于数字的行人重识别


在马拉松比赛中,由于人员庞大、时间持续性长、场景复杂、服装相似等特性,使用行人重识别或者人脸识别的方法来跟踪参赛者是非常困难的,考虑到每一位选手有一个独特的编号,我们试图从场景文本检测的角度入手,根据编号进行行人的定位与跟踪。

如图,我们提出的方法分为如下几个步骤:首先使用TextBoxes对输入图片进行文本检测,即定位出文本区域,然后通过CRNN进行文本识别,再将带搜索文本与识别出的文本库进行匹配,寻找到该数字文本对应的选手。

我们在自己收集的一个马拉松数据集上验证了这个基于号码牌的行人重识别方法,Marathon数据集包含8706张训练图片和1000张测试图片,经测试行人重识别正确率为85%,从某种程度上讲它可以帮助人们进行搜索,还能有效减少搜索时间。
从文本识别到行人重识别


我们发现了一个很有趣的类比思想,将水平文本行看作一个从左到右的序列可以取得很好的识别效果,那么受此启发,我们可以将行人看作一个从上到下分块的序列进行重识别。

我们又进一步探索了LSTM在行人重识别中的作用,发现LSTM可以学到比CNN更加好的特征,如图是基于LSTM的模型,添加LSTM后在Market1501上的识别率显著提升。

我们用上述网络进行行人检索,由上图可以直观地看出,添加LSTM后检索结果明显优于以往。这是因为LSTM使用相邻部分上下文信息丰富了每个人的部分特征,使得模型更具有判别性。
未来发展趋势

未来我们将更加着眼于以下几个方面:不规则文本的检测,比如针对弯曲的或者多视角下的文本行;端到端的多语言文本识别;半监督或弱监督的文本检测识别;基于生成对抗网络的文本图像合成;针对文本识别或自然语言处理的框架;场景文本和图像/视频的结合,以应用到更多的实际场景中去。



文中白老师提到的文章下载链接为:
https://pan.baidu.com/s/19zAhdrpRH1M5JpAwjpqnsw
主编:袁基睿,编辑:杨茹茵。
--end--
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
美反倾大棒砸向中国彩电
555简易电压/脉宽转换器电路
字符型液晶显示模块HD44780与单片机的接口及编程
《ARM微控制器基础与实战》勘误表
集成电路能削减50%的计算功耗
电感的损耗,铜损与磁损
Intersil 公司介绍
住友3M展示投影式静电容量式触摸面板
我的第999贴!
电源和CPU散热器将是下一个价格上涨的目标
《3v与5v混合系统中逻辑器接口问题》
如何减小开关电源的纹波电压
555电压/频率变换器的计数显示电路
700μA超低功耗与5kHz高带宽,纳芯微推出MT932x线性位置传感器
福特推出自研处理器模块,赋能未来车型
日立3D全息显示设备展示
通用汽车与福特应重新考量零部件整合策略
《AVR 从入门到应用》
555线性脉宽调制器电路
555脉冲位置调制器电路
好文一篇,请欣赏!
《crc校验源码分析》
555交替变极性脉宽调制器电路
问问 image.ram 和 image.rom, 请进!
近距离感受罗德与施瓦茨厚重企业魅力
CEATEC 2011日本东京高新技术博览会的几个亮点
学子专区——文氏电桥振荡器的分析与制作(第一部分):背景与理论
在中国成功扩展生成式AI软件的两大举措
复旦微电:2026将提升FPGA、PSoC、FPAI等新产品的供应能力
信息技术改造:为吉林老工业基地振兴插上信息的翅膀