CASIA OpenIR  > 毕业生  > 博士学位论文
中文手写文本行识别
吴一超
学位类型工学博士
导师刘成林
2017-12
学位授予单位中国科学院研究生院
学位授予地点北京
关键词中文手写文本行识别 神经网络语言模型 卷积神经网络形状模型 递归神经网络识别框架
摘要中文手写文本识别方法主要分为基于显式切分的方法和基于隐式切分的方
法。虽然目前基于显式切分的方法占据主要地位,但是其中的语言模型和形状
模型等各个模块有待改进。另一方面,基于隐式切分的递归神经网络识别框架
可以克服显式切分识别系统过于依赖切分的缺陷,在拉丁语系文本识别中已经
占据主导地位,但是在中文识别领域尚未显现优势。本文对两种不同的识别框
架分别展开了深入的研究,贡献主要有以下几点:
1、将神经网络语言模型首次引入到基于过切分的中文手写字符串识别系统
中。神经网络语言模型可以将词(字)从离散空间投影到一个连续空间
中,并在该空间中对语言模型进行隐式的平滑以及序列概率的预测,从
而可以建模高阶文法。实验中对神经网络语言模型在过切分识别系统中
的作用进行了全面的评价,主要比较了前馈神经网络语言模型、递归神
经网络语言模型和混合语言模型。结果表明,神经网络语言模型可以提
升系统识别性能,混合递归神经网络语言模型可以得到最好的结果。
2、提出一种包含单字分类器、过切分以及几何模型在内的卷积神经网络形
状模型用于过切分识别系统。其中,搭建了一个融入领域知识的15 层卷
积神经网络作为字符分类器;提出了一种基于学习的两步过切分方法,
将传统的基于前景点可见性分析的方法与滑动窗卷积神经网络分类器相
结合,使得召回率有了进一步的提升;并且将几何上下文模型从传统的
分类器转换为基于卷积神经网络的模型。在中文手写文本行识别实验中,
基于本模型的识别系统在标准数据集上得到了最高识别性能。
3、在基于递归神经网络的识别框架中,提出了一种可分离二维递归神经网
络模块。与传统二维模块相比,该模块可以有效地提取多方向的信息,
同时可以消耗更少的计算资源。基于这种二维模块,设计了更深的网络
结构,并且改良了解码算法。实验结果表明,本方法的精度比之前的同
类型方法有了显著的提升。
其他摘要Handwritten Chinese text recognition (HCTR) has been addressed by two groups
of methods, explicit segmentation based ones and implicit segmentation based ones.
Although over-segmentation based methods have been demonstrated success in handwritten
character string recognition, the involved linguistic context model and shape
models need enhancement. On the other hand, recognition methods using recurrent
neural network (RNN) can overcome the defects of over-segmentation based methods,
thus have dominated in text recognition of Latin scripts. However, such methods
have shown less success in HCTR. In this thesis, we study into both two frameworks
to attack the existing difficulties of HCTR. The contributions of this dissertation are
summarized as follows:
1. For modeling higher order dependency in linguistic context, we introduce two
types of neural network language models (NNLMs) into the over-segmentation
based recognition system, namely, feedforward neural network LMs (FNNLMs)
and recurrent neural network LMs (RNNLMs). In NNLMs, history characters
are projected into a continuous space to perform an implicit smoothing and estimate
the probability of a sequence. We perform a comprehensive evaluation
of NNLMs in HCTR and further propose hybrid NNLMs to improve the performance.
Experimental results show that the NNLMs improve the recognition
performance, and hybrid RNNLMs outperform the other LMs.
2. We propose an over-segmentation based HCTR method using convolutional
neural network (CNN) shape modules, namely, character classifier, over segmentation,
and geometric context models. We build a 15-layer CNN incorporating
the domain-specific knowledge as the character classifier. For improving
over-segmentation, we adopt a two-stage CNN based over-segmentation
method, which combines visibility-based foreground analysis and CNN-based
sliding window classification. We also utilize CNN for modeling the geometric
context models. Based on the proposed CNN shape models, we achieve new benchmarks on two HCTR standard datasets.
∙3. In the RNN-based framework, we propose a HCTR method using Separable
Multi-Dimensional LSTM-RNN (SMDLSTM-RNN) modules. Compared with
the traditional MDLSTM-RNN, SMDLSTM-RNN not only extracts contextual
information in various directions for better modeling the context, but also
consumes much less computation efforts and resources so that we can explore
much deeper structures. Based on this effective module, we design much deeper
network structures and modify the decoding algorithm. Experimental results
show that the proposed method performs significantly better than the previous
LSTM-based methods.
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/19787
专题毕业生_博士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
吴一超. 中文手写文本行识别[D]. 北京. 中国科学院研究生院,2017.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
Thesis-ycwu_v1.81.pd(3169KB)学位论文 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[吴一超]的文章
百度学术
百度学术中相似的文章
[吴一超]的文章
必应学术
必应学术中相似的文章
[吴一超]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。