CASIA OpenIR  > 毕业生  > 硕士学位论文
高性能中文印刷体文本识别研究
吴晋华
学位类型工学硕士
导师戴汝为
1994-06-01
学位授予单位中国科学院自动化研究所
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
摘要高性能是一个相对的概念,它体现在可靠性、适应性、鲁棒性、界面友善 性、时空代价等很多方面。高性能中文印刷体文本识别的研究内容包括一切旨在 较大提高当前系统各个薄弱环节及其相关的研究。 本文在分析当前国际、国内文件分析与识别研究现状的基础上,指出了高性 能中文印刷体文本识别研究的几项主要内容:总体结构、版面理解、字符分割、 多分类器的综合集成、后处理和图象的退化模型。 本文的主要工作是: 在版面分析理解方面,对版面分析理解进行了全面系统的综述,分析了一些 有代表性的方法,强调了知识在版面分析理解中的作用。 在字符分割方面,提出了基于分裂一合并模型的中文印刷体文本字符分割方 法,使用了一条有效的启发式规则——中心预测一校正法,提出了一个图象的分 布特征——投影密度用于行分割。着眼于解决中英文混排识别,给出了字符分割 的一维分割模型和在此基础上的二分法与树表示。与图表示法相比,该方法具有 控制策略简单、反馈容易进行的特点。这些方法已在实践中取得满意效果。 在识别方法的综合集成方面,对多分类器的集成方法进行了全面系统的综 述,从信息论的角度给出了综合集成的一个解释,即综合集成不是带来新的信 息,而是提高了信息的利用率。 在后处理方面,在分析英文、中文识别后处理方法的基础上,提出了一个中 英文混排识别后处理方案。该方案采用静态和动态词库相结合以解决词库的覆盖 范围问题,其核心是中文识别后处理方法——切断组合法。该方法在分句范围 内利用识别结果的构词制约关系,利用动态规划法确定最终输出,较好地解决了 中文信息处理中的分词问题,是目前基于词库的中文识别后处理方法中理论最 完善的方法。该方法已在实践中取得良好效果。 总之,在所进行的综述和提出的具体方法中,包含了作者对高性能中文印刷 体文本识别研究的见解。本文的工作对高性能中文印刷体的研究是必要的和有益 的。
馆藏号XWLW327
其他标识符327
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7108
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
吴晋华. 高性能中文印刷体文本识别研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1994.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[吴晋华]的文章
百度学术
百度学术中相似的文章
[吴晋华]的文章
必应学术
必应学术中相似的文章
[吴晋华]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。