CASIA OpenIR  > 毕业生  > 硕士学位论文
自然场景文字检测与识别系统
其他题名Natural Scene Text Detection and Recognition System
王潇
学位类型工学硕士
导师王春恒
2015-05-27
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词文字检测 文字识别 多信息融合 I2c 距离度量学习 移动端应用 Text Detection Text Recognition Multi-information Combined I2c Distance Metric Learning Mobile Application
摘要近年来,伴随着互联网行业的飞速发展以及数码相机、智能手机等电子产品的广泛普及,以图片和视频为载体的多媒体信息正逐渐成为信息传递的主要方式。图片和视频中包含大量自然场景中的图像,其中含有的丰富多变的文本携带着图像的高层语义信息,对理解图像内容有重要帮助。 自然场景图像中的文字识别有着很多重要的应用价值,可使用在诸如实时翻译、辅助导航、交通监控、助残服务等领域。因此,对自然场景图像中的文字进行检测及识别正日益成为一个迫切的现实需要。然而,基于移动设备采集得到的大量自然场景图像中的文字,面临诸如复杂背景、光照不均、多变字体等问题,使得其检测与识别相比于传统的扫描文档字符识别更加困难。在学术领域,现如今自然场景下的文字检测与识别逐渐成为计算机视觉领域的研究热点,发展成为模式识别应用的一个重要领域,吸引着大批国内外学者和研究人员投入到相应的研究工作中,迄今已取得很大的进展。然而,要让场景文字检测与识别技术能够广泛应用,走进人们的日常生活依然任重道远。 图像文字检测与识别系统主要包含文字检测和文字识别两部分:文字检测用于定位图像中的文本块,从中抽取出文字区域;文字识别通常是将检测抽取得到的单字二值或彩色图像块进行分类判定,得到文本信息。本文系统性地对自然场景文字检测与识别进行了研究:在文字检测方面偏重实际应用,主要面向基于移动端设备的实现;在文字识别方面,进行了深入的分析,在识别方法上进行了创新。本文的主要工作内容概括如下: 第一,提出一种基于连通域的多信息融合场景文字检测方法。首先,该方法面向移动端应用,通过用户交互进行预处理。用户简单标记出待识别目标文本区域的过程,降低检测难度的同时提高了检测效率。然后,利用边缘检测定位文本区域进一步滤除不需要的背景区域。最后,在定位文本块中提取连通域,通过连通域分析并融合笔画宽度和颜色信息提取文字区域。在自主采集的场景文字数据集上的实验结果表明该方法具有较好的检测效果和较快的速度,且具有较好的鲁棒性。通过实验实际验证该方法的实用性。 第二,提出了一种基于Image-to-Class(I2C)距离度量学习的场景文字单字符识别方法。该方法在特征表示层面选择全局梯度直方图(GHOG)特征描述场景单字图像块。在距离度量选取时,选择计算马氏距离,并采用I2C距离替代一般的I2I (Image-to-Image)距离,通过距离度量学习形成一套区别于基于最近邻(NN)和支持向量机(SVM)的字符分类方法。相比较已有主要经典算法,该方法具有一定优势,在标准数据集CHARS74K 和ICDAR2003上均取得了更高的识别准确率。 第三,本文研究的场景文字检测与识别系统以应用为目的,将现今人们普遍使用的智能手机做为目标载体,使系统能够应用于移动终端--Android智能手机。本文设计并实现了场景文字检测与识别系统原型,以移动端应用App形式呈现。本场景文字识别App主要功能是对用户拍照并选取的感兴趣区域进行文本检测与识别。通过实际使用测试,验证了方案的可行性和场景文字检测识别系统的实际应用价值。
其他摘要In recent years, with the rapid growth of Internet industry and the wide spread of electronic products like intelligent mobile phone and digital camera, multimedia information based on photos and videos is becoming the main way for information transmission. Photos and videos contain a large number of natural scene images. Those images contain lots of texts, which take the high level semantic information, that help to understand the content greatly. Natural scene text recognition has great value in many applications. It could be applied in the fields like real time translation, aided navigation, traffic monitoring, disabled service, etc. Therefore, detection and recognition of natural scene text has become an urgent need for everyday life. However, texts in natural scene images, which were collected by mobile devices, have many problems like complex background, uneven illumination, various fonts, etc, thus making the detection and recognition very difficult. Nowadays, natural scene text detection and recognition is becoming the research focus in the field of computer vision. It has become an important area in pattern recognition application. More and more scholars have been attracted to the research of it. The research of scene text recognition has achieved great improvement till now. However, more efforts need to be made in order to bring this technique to people’s everyday life. A complete text recognition system includes text detection and text recognition: Text detection aims to locate the position of text block and to extract character area; Text recognition uses the character block binary or color image for classification. This thesis researches on natural scene text detection and recognition systematically: For text detection, this thesis focuses more on application, taking mobile devices as the target platform; For text recognition, more deep theoretical analysis has been made, and an innovative algorithm is given. The main content of this thesis is summarized as follows: Firstly, this thesis proposes a connect component based and multi-information combined scene text detection method. This method is designed to work for mobile device application. On a mobile device-intelligent mobile phone-for example, user easily marks the target area for text analysis. This simple interaction can greatly reduce the difficulty and increase the speed for detection. Next, edge detection is adopted to located the text block area. The detected text area i...
其他标识符201228014628053
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7753
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
王潇. 自然场景文字检测与识别系统[D]. 中国科学院自动化研究所. 中国科学院大学,2015.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20122801462805(2274KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王潇]的文章
百度学术
百度学术中相似的文章
[王潇]的文章
必应学术
必应学术中相似的文章
[王潇]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。