CASIA OpenIR  > 毕业生  > 博士学位论文
科技文本分类问题的研究
其他题名The study on technical text classification
姚力群
2004-05-01
学位类型工学博士
中文摘要文本分类问题作为机器学习的一个重要问题,其研究一直受到关注。然而, 作为一类特殊的文本,科技文本的分类问题却没有得到足够的关注:与此同时, 科技文本分类问题的需求却与日俱增。针对这一现实需求,本文以环境科学类科 技文本为例,对科技文本的分类问题进行了深入研究。 论文的主要内容包括: 以环境科学类科技文献为例,建立了科技文本的样本库和字典库。其中包括 的文本样本均来自于真实的科技文献。 分别从三个不同的角度对科技文本分类问题进行了研究工作,其中: 将科技文本分类问题看作一个多分类问题来解决,在学习过程中使用了一种 全局与局部统一的半监督学习算法,并针对科技文本的分类特点对算法提出了改 进。 将科技文本分类问题作为一个两类问题来解决,针对科技文本的特点首次提 出了一种层次结构的文本分类模型。结果显示,该模型能够稳定并有效地提高分 类的精度, 将科技文本分类问题作为一个One—Class问题来解决,首次提出了一种将局 部线性与One—class相结合的文本分类算法,该算法利用局部线性的思想寻找文 本样本的内在支撑流形,利用One—claSS的思想确定正负样本的分界面。与标准 SW算法和One—C1aSS问题的SVM算法相比,该方法具有分类精度高、参数估计 简便、正负样本分类精度可控制、计算量低等优点,该算法为解决科技文献的分 类问题提供了一条有效的途径。
英文摘要As one part of machine learning, text classification has received special attention continuously. However, as one kind of special text, technical text classification only got little attention. At the same time, the necessity for technical text classification increases steadily. Considering above situation, we proposed study on environmental technical text classification. This thesis contains: Taken environmental technical text classification as examples, we constructed a database of technical text samples and the corresponding dictionary. All the samples in the database come from the real technical literature. We proposed study from three different points of views. In which, When treating the problem as a multi-class classification problem, we used the algorithm of. Learning with Local and Global Consistency, and proposed modification based on the character of technical text classification. When treating the problem as a two-class classification problem, we proposed a hiberarchy classification model for the first time. The results showed that the model could enhance the accuracy of the categorization stably and efficiently. ~hen treating the problem as a One-class classification problem, we proposed an algorithm combining local linear with One-Class. ~e introduced local linear to find the manifold of the text samples and defined the interface of positive and negative samples. Compared with standard SVM and SVM with One-Class, this algorithm has the advantages of high precision, simple parameter estimation, easy controlling of precision, and low computation time. This algorithm gives an effective way for the solution of text classification.
关键词科技文本 文本分类 样本库 字典库 多分类问题 局部与全局统一 二分类问题 Svm 层次结构 One—class Lle 局部线性 Technical Text Text Classification Sample Database Dictionary Multi-class Classification Local And Global Consistency Two-
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/5799
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
姚力群. 科技文本分类问题的研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2004.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[姚力群]的文章
百度学术
百度学术中相似的文章
[姚力群]的文章
必应学术
必应学术中相似的文章
[姚力群]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。