CASIA OpenIR  > 毕业生  > 硕士学位论文
中文版面分析
江世盛
学位类型工学硕士
导师吴显礼
1999-06-01
学位授予单位中国科学院自动化研究所
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
摘要版面分析是OCR系统的一个重要组成部分,它将文档图象按一定的特征分 割成各个部分,并判断各部分是文本、标题、图象、图形或表格等。我们把这 样的部分称为版面基元。版面分析得到的各个基元在后续处理中将采用不同的 处理方法,如文本基元将用文字识别器处理,表格基元将用专门的表格识别器 处理。 在本文中,我们将版面分析系统按照处理的过程分成了图象预处理、倾斜 校正、版面分割和版面理解等几个部分,对每个部分的一些基本思想和算法作 了详细的介绍,并在其中穿插介绍了我们在汉王HW_OCR的版面分析系统中 使用的各项技术。HW_OCR的版面分析系统处理的对象是单篇文章的中文文 档,主要技术包括腐蚀-膨胀的去噪、平滑的方法、最近邻的倾角检测方法、利 用分隔子的版面分割方法和基于排版规则的版面理解方法。 为了快速、有效地处理复杂的中文文档版面(文本横、竖混排,基元非矩 形假设),我们提出了利用分隔子的版面分割方法。该方法综合使用了自顶向下 和自底向上两种策略,利用文章排版的各种实分隔子和局部特征差异形成的虚 分隔子完成版面分割。该方法具有抗倾斜、适应性强和处理速度快等特点。 本文最后介绍基于上述方法的实用版面分析系统和实验结果,并对今后的 改进提出了一些有益的建议。
其他摘要Document analysis is an important part of OCR system, it segment the document image into several parts and distinguish the parts text, title, image, drawing or table et al. We call the parts blocks. The blocks got by document analysis will be different treated, for example, text blocks will be done by character recognition engine, table will be done by table recognition engine. In this thesis, document analysis system consists of several parts such as image pre-process, deskew, document segment and document understanding. Basic ideals and algorithms are introduced in detail and some techniques applied in the HW_OCR document analysis system are presented . The HW_OCR system mainly processes Chinese document with a single article, and its main methods include morphological filter, skew angle detection with nearest neighbour, document segment using seperator and document understanding based on type-set rules. In order to quickly and effectively deal with complex Chinese document(horizontally and vertically aligned document, non-rectangle document ), we propose the document segment method using seperator. The method integrates top-down and bottom-up strategies and segment document using all kinds of seperators. It has such characteristics as skew robustness, strong adaptability and quick speed. Finally, the experiment results are given and some good suggestions are provided in future research work.
馆藏号XWLW529
其他标识符529
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7277
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
江世盛. 中文版面分析[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1999.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[江世盛]的文章
百度学术
百度学术中相似的文章
[江世盛]的文章
必应学术
必应学术中相似的文章
[江世盛]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。