CASIA OpenIR  > 毕业生  > 博士学位论文
支持向量机优化及在语音文档检索中应用
其他题名Optimization of SVM and Application in Spoken Documents Retrieval
周梁
学位类型工学博士
导师陶卿
2008-05-28
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词机器学习 支持向量机 核矩阵缓存 解路径算法 语音文档检索 排序算法 Machine Learning Support Vector Machine Kernel Cache Path Solution Spoken Documents Retrieval Rank
摘要统计机器学习理论是20世纪90年代逐渐发展成熟的一门不同于传统统计学的理论,它主要是针对有限样本情况下研究统计学习规律的理论,是传统统计学针对实际问题的重要发展和完善。它的建立是统计推断领域内的一个里程碑,使得统计机器学习成为了一门严谨理论基础的科学,也为机器学习算法的设计提供了坚实的理论基础和规范。支持向量机是建立在统计学习理论的基础上的第一个学习算法,目前主要应用于求解分类问题、回归问题和One-Class问题。支持向量机最终可以归结为求解凸二次优化问题,从最优化理论的研究层次来看,无论是二次凸优化问题解的存在性理论还是求解算法,都是已经被研究和解决的比较彻底。在理论研究中,重要的数学定理有Karush-Kuhn-Tucker(KKT)条件和Lagrange鞍点定理。在众多的应用领域,如手写邮政编码的识别和生物特征识别,支持向量机算法分类的准确性得到了很好的验证。 然而在实际应用中,在训练支持向量机的时候还是会遇到两个比较难以处理的问题:大规模数据训练问题和模型参数选取问题。在大规模数据训练方面,目前有两种主流算法:几何算法和分解算法,在实际应用中,以分解算法为主。虽然成熟的支持向量机求解软件包已经对于具体的支持向量机求解算法有了深入的研究,并且在分解算法中提出了样本集收缩和核矩阵缓存两大必不可少的策略,但是样本集收缩和核矩阵缓存这两大策略明显没有深刻的利用支持向量机这一问题的特殊性。在模型参数选取方面,常常遇到这样一个问题:由于很多性能优越的算法最终可以转化为求解一个等价的优化问题(如支持向量机、神经网络),但是这些优化问题中却存在了一些需要预先给定的超越参数(如支持向量机中的惩罚系数,神经网络中的隐层数与各隐层节点数),其最优性能是在某一个特定的超越参数下面才能训练得到,然而这个最优性能所对应的超越参数却是不能够很容易的通过先验知识所获得。通用的方法就是使用交叉验证和统计评价指标的方法来选取较优的超越参数,这种方法往往就是预先使用一组备选参数,重复的求解同一个优化问题,显然这种做法相当的浪费资源,还会出现如果最优的参数并不在备选参数中,这种方法相当于是劳而无获。目前也存在了一些比较简单的方法来获取最优的超越参数,比如LIBSVM算法包就使用了网格搜索的策略来重复求解优化问题直至得到最优的超越参数,但是这种网格搜索的策略会遇到落入局部最优的陷阱。因此对于大规模数据训练和参数选取这两方面的理论研究有着非常重要的研究价值。 本论文从支持向量机求解算法基础出发,着重分析了目前主流的分解算法和几何算法,随后就对分解算法中的核矩阵缓存技术提出了改进;然后就参数选取问题进行了深入分析,结合目前的解路径算法思想,提出了One-Class支持向量机解路径算法;最终将解路径支持向量机求解算法具体的放入中文语音文档检索领域进行实际应用。总体来说,在本文中,主要的工作和贡献有: 1. 总结目前的支持向量机求解算法,提出了更加高效的核矩阵缓存技术,提高了目前常用支持向量机求解软件包的求解效率。 2. 根据已有的解路径算法思想,提出了针对One-Class支持向量机的解路径算法。 3. 使用解路径算法求解排序支持向量机问题,实际应用到中文语音文档检索,为中文语音文档检索做出前期铺垫性工作。 总的说来,本文在支持向量机求解算法优化及其在语音文档检索中的应用等方面做了一些有益的探索。整篇文章的工作既需要在理论方面深入研究而取得成果,也需要在实际应用中培养得到良好的工程经验。
其他摘要Different from the traditional statistics, statistical machine learning is a theory gradually developed in the 1990s, whose main target is to study the statistical learning rule in the case of limited samples, and it is the important development and improvement for the traditional statistics when dealing with practical issues. It's establishment is deemed as a milestone in the field of statistics and inference, making statistical machine learning become a science with rigorous theoretical foundation, as well as providing a solid theoretical foundation and criterion for the design of learning algorithm. Support Vector Machine(SVM) is the first learning algorithm built on the basis of statistical learning theory, presently being mainly applied for the solution of Classification, Regression and One-Class problems. SVM can eventually be transformed to solve a secondary convex optimization problem, and as far as the research of optimization problems is concerned, either the existence theory or solution algorithm of the secondary convex optimization problem, has been studied and resolved thoroughly. In the theoretical study, those important mathematical theorems are such as Karush-Kuhn-Tucker (KKT) conditions and Lagrange saddle point theorem, while in many application areas, such as the recognition of handwriting postcode and biologic character, SVM's accuracy of classification has been well validated. Based on the solution algorithm of Support Vector Machine, this paper analyzes with emphasis the current mainstream decomposition algorithm and geometric algorithms, subsequently proposing an improvement on the kernel cache technology for decomposition algorithm; then providing an in-depth analysis on selecting parameters, combined with the current idea of path solution algorithm, this paper proposes the One-Class SVM path solution algorithm, and practically applying the optimum path solution algorithm of SVM into Chinese Spoken Documents Retrieval. Generally speaking, the main work and contribution of this paper are summarized as below: 1. Based on the conclusion of current solution algorithm of Support Vector Machine, this paper proposes a kernel cache technology with higher efficiency, improving the efficiency of current solution packages of SVM; 2. According to the current idea of path solution algorithm, this paper proposes the path solution algorithm for One-Class SVM; 3. Using the path solution algorithm for SVM to solve the Rank Support Vector Machine, and practically applying it into Chinese Spoken Document Retrieval, providing some early foreshadowing work on Chinese Spoken Document Retrieval.
馆藏号XWLW1226
其他标识符200518014628090
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6081
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
周梁. 支持向量机优化及在语音文档检索中应用[D]. 中国科学院自动化研究所. 中国科学院研究生院,2008.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20051801462809(2777KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[周梁]的文章
百度学术
百度学术中相似的文章
[周梁]的文章
必应学术
必应学术中相似的文章
[周梁]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。