CASIA OpenIR  > 毕业生  > 硕士学位论文
文档版面分析技术研究与系统实现
郜巍
学位类型工程硕士
导师张树武
2016-05
学位授予单位中国科学院大学
学位授予地点北京
学位专业计算机技术
关键词页面倾斜检测 页面分割 区域分类
摘要纸质文档的数字化广泛应用于办公自动化、数字化图书馆、工业自动化等领域,针对手工方式非常耗时耗力的问题,我们应该寻求一种自动化的方式来解决。本文拟研究和实现一种自动化文档分析系统。
本文的目标是研究并实现一个针对文档的版面分析系统,当用户输入一张文档图像时,该系统能够完全自动化地对文档图像进行分析,无需人工干预, 就能得到较好的版面分析结果。该系统要能够兼顾准确性和速度,同时还要能适应不同大小、不同分辨率的文档图像。
系统实现的主要步骤有:页面倾斜检测与校正、图像二值化、边缘噪声去除、版面分割、区域类型识别。
本文提出的关键算法有:
1. 针对污染严重或光照不好的文档,鉴于全局阈值法的结果不好,应用了一个局部自适应阈值的二值化算法,实验表明,局部自适应阈值法二值化的效果不错,能有效解决这种类型的文档;
2. 针对不同类型页面的倾斜问题,传统的霍夫变换法进行角度检测精度不高,本文改进了LSD(直线段检测)、KNN(K最近邻)聚类和DFT(离散傅里叶变换)相结合的方法来检测页面偏转,实验表明,此方法鲁棒性好、速度快、精度高;
3. 针对复杂的非曼哈顿版面存在分割准确率低以及多数分割算法没有足够关注非文本元素的分类等问题,在版面分割和区域类型识别部分,本文对最小同质区域算法(目前很好的版面分析算法,采用多层级分类法,分类和分割同时进行),进行改进。实验结果显示,对于简单的论文版面,特别是复杂的杂志版面,都能够比较准确和快速地划分出不同类型的独立区域并加以识别。
 
关键词:页面倾斜检测,页面分割,区域分类
其他摘要Digitization of paper documents is widely used in office automation, digital libraries, industrial automation and other fields. Due to the long time-consuming manual process, we should seek an automatic way to solve the problem. This paper intents to study and implement an automated document analysis system.
 The purpose of this paper is to study and implement a system of document layout analysis. When the user inputs a document image, the system should conduct document image analysis automatically without any human intervention, and the user can get a good layout analysis result finally. The system can deal with various sizes, all kinds of types, and different resolutions of the document image. The accuracy and speed should be taken into account too.
 Three main steps of system implementation are: Page skew detection and correction, image binarization, edge noise removal, page segmentation and region type recognition.
 In summary, the key proposed algorithms are:
1. For the serious pollution or illumination bad document, given the global threshold of poor results, the application of a local adaptive threshold binarization algorithm, experiments show that local adaptive threshold binarization can produce good results.
2. For different types of pages, the traditional Hough transform method for angle detection whose accuracy is not good, we get a combination of LSD (line segment detection), KNN (K-nearest neighbor) clustering and DFT (Discrete Fourier Transform), to detect the deflection of the page, the experiment shows that this method is robust, high speed, and high precision;
3. For complex non-Manhattan layout whose resolution is low and most segmentation methods are not focused on non-text elements, in the part of page segmentation and region classification, this article improves the smallest homogeneous region algorithm (currently a very good page analysis algorithm, using multi-level classification, classification and segmentation simultaneously). The results show that for simple essay layouts, especially the complex magazine pages, our method is accurate, robust and quick.
 
Keywords: skew detection, page segmentation, region classification
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/11514
专题毕业生_硕士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
郜巍. 文档版面分析技术研究与系统实现[D]. 北京. 中国科学院大学,2016.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
2013E8014661090-郜巍-工(5007KB)学位论文 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[郜巍]的文章
百度学术
百度学术中相似的文章
[郜巍]的文章
必应学术
必应学术中相似的文章
[郜巍]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。