CASIA OpenIR  > 毕业生  > 硕士学位论文
自然场景文字切分和文本行识别方法研究
贺欣
2016-06
学位类型工学硕士
中文摘要
文字识别是模式识别领域的核心分支之一,近年来,场景文字识别这一子问题得到研究者的广泛关注,场景图像中的文字识别对比传统的印刷文档识别和手写文档识别有其独特的问题,例如图像中背景往往比较复杂,图像质量受光照、分辨率等影响较大,这些特点使得场景文字识别具有很大的挑战性。本文以场景图像中的英文词识别和数字串识别为任务,对自然场景文字中的切分和文本行识别方法进行了研究,主要研究内容分为两部分:
 
1、提出了一种基于多层感知机的场景文字过切分方法。该方法利用神经网络分类器的高效的判别性能,以滑动窗的形式在文本行中定位字符间的间隔,对比传统的基于启发式的过切分取得了更高的切分点召回率和精度。基于该方法的场景文字识别系统在多个标准数据集上取得了比现有方法更好的性能。
 
2、提出了一种基于递归神经网络(Recurrent Neural Network, RNN)的文本行识别方法。本文在标准RNN的基础上采用长短时记忆(Long Short Term Memory, LSTM)模块替换神经网络中的隐层节点,并将标准的RNN 扩展到双向网络以更好地捕捉文本行中的上下文信息,进一步结合序列化梯度方向直方图特征,在场景图像数字串识别中取得了较好的结果。
英文摘要
Text recognition is one of the core branches of pattern recognition. In recent years, the subproblem of scene text recognition has drawn great attention from many researchers and received intensive study. Text recognition in scene images faces unique challenges compared to printed document recognition and handwritten recognition. The background in scene images are more complicated and the image quality is often affected by illumination and the resolution. Oriented to English word recognition and numeric string recognition in scene images, this thesis studies character over-segmentation and text line recognition methods. Our efforts and contributions are divided into two parts:
 
1.We propose a multi-layer percepetrons(MLP) based over-segmentation method. We utilize the high discrimination ability of neural networks to detect segmentation points between characters in a sliding window manner. This method largely improves the precision and recall rates of segmentation points, and results in higher recognition accuracy of scene text than existing methods on some benchmark datasets.
 
2.We propose a Recurrent Neural Network(RNN) based method to recognize  text lines in scene images. Specifically, we substitute the hidden neurons of standard RNN by the long short term memory blocks, and expand the network to a bidirectional model. Further, we combine the RNN with serialized HOG features and achieve promising recognition results on numeric strings.
关键词场景文字识别 过切分 递归神经网络
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/11765
专题毕业生_硕士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
贺欣. 自然场景文字切分和文本行识别方法研究[D]. 北京. 中国科学院大学,2016.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
自然场景文字切分和文本行识别方法研究_贺(2070KB)学位论文 限制开放CC BY-NC-SA
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[贺欣]的文章
百度学术
百度学术中相似的文章
[贺欣]的文章
必应学术
必应学术中相似的文章
[贺欣]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。