CASIA OpenIR  > 毕业生  > 博士学位论文
基于生物网络的中医药领域 知识发现关键技术研究
其他题名Study on Key Technology of Knowledge Discovery in the Field of Traditional Chinese Medicine Based on Biological Network
代文
学位类型工学博士
导师杨一平 ; 蒋永实 ; 卢朋
2015-05-29
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词生物网络 有效成分预测 通路模式 证候分析 支持向量机 关联预测 矩阵分解 中医药 知识发现 Biological Network Active Component Pathway Pattern Syndrome Support Vector Machine Drug-disease Association Matrix Factorization Traditional Chinese Medicine Knowledge Discovery
摘要近几十年来,生物医学领域积累了大量的数据。一方面,基因、蛋白质、RNA、代谢物等分子级别的数据在还原论的指导下得到了大量积累。另一方面,医案、病例等临床数据也飞速增长。巨大的数据对于研究者来说既是机遇又是挑战。如何从海量的生物医学数据之中挖掘出可以指导生物医学探索的有价值的知识,一直吸引着研究者的目光。知识发现是发挥这些数据价值的有效途径,它能够利用生物医学领域已知的知识预测未知的知识。与此同时,研究者越来越清晰地意识到生物系统的复杂性,其中的组分很少单独作用,组分之间往往存在着错综复杂的相互作用关系。生物网络作为一种关联网络,很适合用来表现生物系统的复杂性。生物网络对生物医学数据的描述更加灵活、丰富和形象,其中蕴含的拓扑性质也有利于我们挖掘更深层次的知识。正因为此,生物网络逐渐成为生物医学领域的热点研究对象之一。 本文在生物网络的数据基础之上,从知识发现中数据挖掘这一核心步骤出发,针对中医药领域中的实际问题进行了研究,以挖掘有价值的知识,推动中医药的现代化发展。我们的研究主要针对的是药物和疾病相关的问题,主要的研究工作包括: (1) 针对中药成分众多机理复杂的特点,我们提出了基于通路模式的药物有效成分预测方法。通过关联映射和双向关联规则挖掘,在生物通路层面提取了通路模式,进而设计得分函数评价基因的重要性与化合物的有效性,并预测潜在的有效成分。以麻杏石甘-银翘散为例,分子对接实验验证了算法的有效性。最后,我们构建了有效成分-基因靶标关联网络,阐释中药方剂多成分多靶标的作用机理。 (2) 从中医临床病例样本出发,我们提出了基于不平衡SVM的中医证候分析双层方法。在定量层面,根据信息增益筛选关键症状,并通过样本合并削弱样本不平衡对SVM模型超平面的偏置影响。以脑中风风痰瘀阻证为例,通过与其他算法的对比,验证了定量诊断模型的有效性。在定性层面,通过表型-基因-生物通路映射关系构建关键症状-基因-通路模式多层关联网络,解释关键症状的作用机理。 (3) 在药物-疾病关联关系预测的问题上,我们引入基因空间,提出了基于基因空间的矩阵分解方法。通过特征值分解,我们从基因关联网络中提取拓扑信息。根据药物-基因关联关系与疾病-基因关联关系将拓扑信息融入药物、疾病的表征向量之中,进而构建矩阵分解模型并进行寻优。通过实验验证了引入基因空间的作用,同时与其他算法的对比也证明了算法的有效性。与大多数基于药物、疾病特征属性的预测模型不同,我们的模型主要依靠关联数据来进行预测,这使得我们的模型克服了收集药物和疾病特征数据过程中费时费力、经验知识缺乏的问题,提高了预测的效率。 最后,基于以上研究成果,开发了一套基于生物网络的中医药领域知识发现应用系统。该系统集成了方剂有效成分预测、中医证候诊断模型和潜在药物-疾病关联关系预测等功能,可以系统性地帮助中医药研究者发现隐藏在生物医学数据之下的有价值的知识,有助于中医药领域的发展。
其他摘要In recent decades, huge amounts of data have been accumulated in biological science and medical science. Under the guidance of reductionism, biological researchers focused on the study at the molecular level, yielding substantial findings on genes, proteins, RNA and metabolites. Meanwhile, clinical medical records also undergoing rapid growth. The immense accumulation of relavant data is both opportunity and chanllenge to the researchers. How to find valuable knowledge from these data is a crucial problem, and knowledge discovery is an efficient strategy. At the same time, researchers gradually become aware of the complexity of biological systems, and find that biological network is quite suitable for the knowledge discovery on biological systems. In this study, we are dedicated to research on data mining algorithms, which are critical in knowledge discovery, on the basis of biological network. The proposed algorithms were applied in the field of Traditional Chinese Medicine (TCM), in order to extract valuable knowledge which is beneficial to the modernization of TCM. The research contents of this study are summarized as follows: (1) As TCM usually contains numerous chemical compounds and exerts a complex mechanism of action, we propose a Pathway Pattern-based method for the prediction of active components of TCM. By utilizing bidirectional strong association rule mining algorithm, we firstly extracted the Pathway Pattern, which is made up of groups of pathways. Then the Pathway Pattern was used to prioritize chemical ingredients and gene targets through designing scoring functions. The novel method was applied in maxingshigan-yinqiaosan Formula, in which case 16 active components and 29 gene targets were identified. The prediction results were subjected to experimental and literature validation. By comparing to previous literature findings, we demonstrated the top ranked genes’ roles in the pathogenesis of H1N1 influenza. Further, molecular docking was utilized to validate the compounds’ effects through docking compounds into drug targets of oseltamivir. Finally, an active component-gene target interaction network was acquired to elucidate the pharmacology of maxingshigan-yinqiaosan formula. (2) Based on clinical medical records from traditional Chinese physicians, we propose a two-level model for the analysis of TCM syndromes. Firstly, a diagnosic model was generated. We selected core symptoms by using information gains, and generated a core s...
其他标识符201218014629088
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6731
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
代文. 基于生物网络的中医药领域 知识发现关键技术研究[D]. 中国科学院自动化研究所. 中国科学院大学,2015.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20121801462908(4108KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[代文]的文章
百度学术
百度学术中相似的文章
[代文]的文章
必应学术
必应学术中相似的文章
[代文]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。