CASIA OpenIR  > 毕业生  > 硕士学位论文
基于图像中文字检测和抽取技术的图像内容理解及其应用
其他题名Image Content Understanding Based on Text Detection and Extraction
张阳
学位类型工学硕士
导师王春恒
2013-05-28
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词文字检测 文字定位 文字抽取 边缘检测 随机森林 局部信息 Text Detection Text Localization Text Extraction Corner Detection Edge Detection Image Complexity Robust Reading Random Forests Local Information
摘要随着数码相机、数字摄像机和手机摄像头等数码产品的日益普及,人们获取图像和视频的方式越来越多,图像和视频的数量急剧增长。而个人PC和互联网的快速发展,使得图像和视频成为日常生活中信息交流和传递的重要载体。如何让计算机自动理解并利用图像和视频等多媒体文档的内容,已经成为当前图像处理和多媒体领域研究的热点。相比颜色、纹理、形状等底层图像特征,图像和视频中嵌入的文字通常与图像内容直接相关,如果能检测、抽取并识别出图像中的文字,则能够为图像和视频的内容理解提供重要的线索。传统的字符识别技术能够有效处理高质量的扫描文档,但是当图像中包含复杂背景,文字只占一小部分的情况,便会遇到很多困难,导致性能下降,甚至不能处理。因此,我们需要从理论和技术上提供有效的解决方案。本文针对复杂背景中的文字检测和提取问题展开研究,主要内容包括: 第一,针对复杂背景中的视频文字,本文提出一种基于自适应角点融合的文本检测算法。该方法主要利用图像中的角点来定位和检测文字区域。我们利用灰度变化和边缘分布定义图像复杂度,再依据图像复杂度来进行角点检测和自适应角点融合得到文字候选区域,然后利用边缘投影分析来精确定位文字区域,最后通过SVM分类器对文本进行分类,去除误检区域。通过在视频数据集的实验,表明本文提出的方法具有召回率高,算法速度快的优势。 第二,针对图像或者视频帧中的叠加文字,本文提出一种基于随机森林的文本检测方法。该方法将文字检测分为文本行粗检测和文本行验证两个步骤。在粗检测环节首先利用MVD彩色边缘检测和BST局部二值化方法得到二值边缘图,再利用边缘密度分布去除简单的背景,然后依据文本区域的几何和颜色特性的连通域分析得到文本行的候选区域位置。文本验证在粗检测的基础上,过滤背景噪声,提高检测算法的准确率。我们提出一种基于随机森林分类器的文本行验证算法。已有研究表明随机森林分类器对不均衡样本分类具有较好的泛化能力,正好符合文本行和非文本行样本的特点,我们提出用随机森林融合不同物理意义的特征进一步提高分类验证的性能。通过在多个数据集上与其他现有方法的比较,表明了本文提出的文本检测算法的有效性。 第三,针对复杂背景中的文字抽取问题,本文提出一种整合局部信息的文本抽取算法。该方法将文字抽取看作一个噪声过滤的过程。经过观察,我们将文本行中的噪声分为:文字区域噪声和复杂背景噪声。其中文字区域噪声是指文字笔划上的噪声,多为质量退化或者光照不均引起的随机噪声,复杂背景噪声则是由与字符纹理灰度相似的背景造成的。我们利用边缘增强,结合局部灰度和空域信息进行二值化,去除文字区域噪声,并尽量分离背景和噪声,然后再利用基于文字特性的连通域分析,去除复杂背景噪声。通过在实验图像和真实数据集的算法测试,验证本文提出的文字抽取算法的有效性。
其他摘要Nowadays digital cameras, mobile phone cameras and other digital products are becoming more and more popular, people can obtain the images and videos easily, so the number of image and videos grows rapidly. With the rapid development of individual PC and the Internet makes the image and video have become important carriers of information exchange in our daily life. How to make the computer automatically understand and use the contents of images and videos has become a hotspot of current research in the field of image processing and computer vision. Compared to the color, texture, shape and other low-level image features, embedded text in images and videos is usually associated with image content directly. So if the text in images or video frames can be detected, extracted and recognized, it can provide important clues for understanding the image and video content. The traditional character recognition techniques can effectively process high quality scan documents, but encounter many difficulties for recognizing text in the image with complex background. Therefore, we need to provide effective solutions from theory and technology. The thesis concentrates on the study of text detection and extraction in images or video frames with complex background, the main contents include: First, this thesis proposes a text detection method based on adaptive corner detection and fusion. The method mainly uses image corners to locate and detect text regions. First, image complexity is defined by gray change and edge distribution, then according to the image complexity, candidate text regions can be achieved by corner detection and fusion. Further edge projection analysis is adopted to locate the text regions accurately, finally the SVM classifier is used for text classification which remove the false alarms. The experiments on video data sets show that the proposed method has a high recall rate and speed. Secondly, this thesis proposes a text detection method based on random forests. The method mainly contain coarse detection and text verification. In coarse detection we first use MVD color edge detection and BST binarization to get the binarized edge map, and then edge density distribution is used to remove simple background. At last connected component analysis based on geometry and color characteristics of text region is used to grow candidate text regions. After the coarse detection, text refinement and verification are used to locate the text line accurately and ...
馆藏号XWLW1826
其他标识符200628014628071
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7685
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
张阳. 基于图像中文字检测和抽取技术的图像内容理解及其应用[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20062801462807(2824KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张阳]的文章
百度学术
百度学术中相似的文章
[张阳]的文章
必应学术
必应学术中相似的文章
[张阳]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。