CASIA OpenIR  > 毕业生  > 硕士学位论文
中英文混排文档的中英文切分和英文识别
罗兴志
学位类型工学硕士
导师刘迎建
2000-06-01
学位授予单位中国科学院自动化研究所
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
摘要随着国际间技术交流的发展,多语言文档越来越普遍,尤其是在高技术 领域,通常都有大量的外文术语。在我国,最为常见的是中英文混排文档,英 文多以专业术语,人名等方式出现。多语言文档的出现也对OCR技术提出了新 的要求,与单一文档识别不同的是,混排文档中由于不同语言特点的差别,要 求采用不同的识别方法。比如中文文档的一般是方块字,粘连的问题往往并不 是很严重,并且粘连的切分相对要容易,相反,英文由于字宽变化大,粘连有 比较严重,所以主要问题在于切分;另外一个不同点是中文属于大字符集的识 别,而英文是小字符集的识别。由于这些不同点,对于这类文档的识别要求对 文档中出现的不同语言加以区分,采用不同的识别方法。 本文首先对混排文档的识别的研究发展作了一般性的综述,然后详细介 绍了基于识别的中英文切分方法和基于最短路的粘连英文单词的识别方法。 本文所提出的方法已经应用与于汉王的OCR5.0中,测试表明该核心已 经达到使用水平。
其他摘要With the fast development of the international technology interacting, multilanguage document are becoming more and more popular. It brings a new research topic in Document Recognition: the recognition of multi-language document. In China, Chinese and English mixed documents are very common, in which most of the English words appear as proper nouns and names of people. The difference between different language requires different recognition method. For example, rectangle is the basic shape of Chinese words, while the shapes of the English character are various. And touching is very common and difficult to segment in English words, while touching in Chinese words is easy to segment. The set Chinese character is much larger than that of English. All these require the classification of the characters in the document, and recognize with different methods. This paper gives a review to the research of multi-language document recognition at first, and then give the details of our method to classify the characters and recognize the touching English words. Our methods have been applied in Software "Hanwang OCR 5.0", the test shows that our methods can be practically used.
馆藏号XWLW550
其他标识符550
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7283
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
罗兴志. 中英文混排文档的中英文切分和英文识别[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,2000.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[罗兴志]的文章
百度学术
百度学术中相似的文章
[罗兴志]的文章
必应学术
必应学术中相似的文章
[罗兴志]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。