CASIA OpenIR  > 模式识别国家重点实验室  > 自然语言处理
基于概率主题词的两级组合文本分类方法
宗成山; 李寿山
2006-04-19
Date Available2007-10-24
CountryCN
Subtype发明
Abstract本发明涉及自然语言处理及模式识别领域,公开基于概率主题词的两级组合文本分类方法,一级分类:基于朴素贝叶斯分类方法,利用概率主题词特征和拒绝条件判断对测试文本分类;二级分类:再基于传统特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。本发明分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本发明两级组合与传统单一分类相比,能够大大减少时间消耗并能提高系统分类正确率。
Patent NumberCN200610011747.2
Status授权
Document Type专利
Identifierhttp://ir.ia.ac.cn/handle/173211/8208
Collection模式识别国家重点实验室_自然语言处理
Affiliation中国科学院自动化研究所
Recommended Citation
GB/T 7714
宗成山,李寿山. 基于概率主题词的两级组合文本分类方法. CN200610011747.2[P]. 2006-04-19.
Files in This Item:
There are no files associated with this item.
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[宗成山]'s Articles
[李寿山]'s Articles
Baidu academic
Similar articles in Baidu academic
[宗成山]'s Articles
[李寿山]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[宗成山]'s Articles
[李寿山]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.