基于深度学习的场景文本检测方法研究

CASIA OpenIR > 毕业生 > 博士学位论文

	基于深度学习的场景文本检测方法研究
	何文浩
	2018-12
学位类型	博士
中文摘要	场景文本检测是自然场景中文字识别不可或缺的一步，但是面临诸多难以解决的问题，比如文字字体、方向、形变、尺度等因素变化丰富，文字背景复杂多样，解决这些问题要依赖鲁棒的场景文本特征提取与检测框架设计。近几年，深度卷积神经网络在计算机视觉领域被广泛应用，因为其强大的特征学习能力带来了性能的明显提升，为场景文本的特征提取奠定了基石。在文本检测框架设计层面，有两个关键任务需要学习。第一个任务是定位文本区域的位置，第二个任务是描述文本行的边界，给出文本行的四边形或多边形边框。本论文主要研究解决三方面的问题：基于卷积神经网络的场景文本检测框架设计，场景文本检测算法的细节分析，以及场景文本检测的加速。主要贡献总结如下： 1. 提出了基于全卷积网络与多任务学习的场景文本检测框架。该工作的核心贡献在于指出了目前广泛使用的间接回归不适用于多方向场景文本检测，进而提出了更为简洁有效的直接回归，以及基于直接回归的场景文本检测框架。该框架包含四个模块：卷积特征提取，多级特征融合，多任务学习以及后处理。卷积特征提取与多级特征融合参照全卷积网络的设计思想。多任务学习模块包含两个任务：第一个任务是像素级别的文本与非文本分类；第二个任务是像素级别的直接回归，用来描述任意四边形的文本行边界。后处理依据标注标准的不同分为两类：对于像拉丁语系的单词级别标注，后处理采用带召回的非极大抑制；而对于中日韩等语言的行级别标注，后处理是基于规则的行片段聚合方法来定位长文本行。在包含多方向以及多语言的不同场景文本检测数据集上进行测试，本方法在绝大多数的数据集上取得了最佳的性能。 2. 为了能理解基于深度卷积神经网络的场景文本检测算法的原理与细节，以便设计更好更快的检测模型，本文分析并量化了可能影响场景文本检测性能的多个因素，主要包括卷积神经网络的结构，真值的设计，文字尺度以及数据增强等。首先在特征层面，本文从文字特征与通用物体特征的差别，特征类内散度与类间散度等角度出发，定性分析上述因素对检测性能的影响。然后在实验层面，选用ICDAR2015随拍场景文本数据集作为测试对象，遵循控制变量的思想对上述因素对检测性能的影响做定量分析。实验结果显示，特征层面与实验层面的分析大致吻合。 3. 提出了基于尺度估计网络的快速文本检测方法。该工作的主要贡献在于提出了新型的尺度估计网络，并且基于该网络以及双阶段检测设计，在多尺度场景文本检测速度上取得了重大的提升。该方法包含两个阶段：第一个阶段采用尺度估计网络，快速过滤出文本行的候选区域并将其中文字放缩到合适的大小；第二阶段采用单尺度的高精度场景文本检测器来定位候选区域的文本行。由于第一个阶段过滤掉了绝大多数的背景，并且文字被放缩到一个较窄的尺度范围内，因此第二阶段的场景文本检测耗时会很少，整个框架可以实现快速多尺度场景文本检测。实验阶段，在ICDAR2015随拍场景文本数据集上，该方法达到了F1值85.40%的最佳的性能，运行速度为16.5帧/秒，而另一个具有竞争力的结果，F1值为79.66%，速度高达35.1帧/秒，比之前最佳性能的运行速度快了5倍之多。在其他几个数据集上，该方法也在维持良好检测性能的同时，在速度上取得了重大突破。
关键词	场景文本检测卷积神经网络多任务学习直接回归检测加速
学科领域	计算机科学技术 ; 人工智能 ; 模式识别 ; 计算机神经网络
学科门类	工学 ; 工学::计算机科学与技术（可授工学、理学学位）
语种	中文
文献类型	学位论文
条目标识符	http://ir.ia.ac.cn/handle/173211/22391
专题	毕业生_博士学位论文
通讯作者	何文浩
推荐引用方式 GB/T 7714	何文浩. 基于深度学习的场景文本检测方法研究[D]. 北京. 中国科学院大学,2018.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
何文浩签名-基于深度学习的场景文本检测方（12911KB）	学位论文		限制开放	CC BY-NC-SA