癌症基因表达谱数据的亚型聚类方法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:xingchen1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于高通量全基因测序技术的高速发展,产生了大规模的基因表达谱数据,结合数据挖掘技术获取有效的生物学知识已经成为精准医疗的研究热点。原始的癌症基因表达谱数据具有维度高、分布不平衡、冗余数据、结构复杂等特点,导致聚类分析过程中大量高维属性的计算成本增加、聚类结果的不精确,这会对探索一种癌症是否存在亚型以及是否存在癌症分子标记物的结果产生偏差。根据基因表达谱数据的特点,考虑各类聚类算法的优缺点,构建癌症亚型聚类分析的主要框架,包括数据的预处理、特征的选择、聚类方法及聚类结果的评价指标。重点介绍两种适合基因表达谱数据的亚型聚类算法模型。针对基因表达谱数据在密度峰值聚类算法(Density Peak Clustering,DPC)中会出现多个高密度点难以准确选取聚类中心的情况,提出一种改进节点凝聚度的密度峰值聚类算法(Improved Aggregation Density Peak Clustering,IA-DPC)。该方法首先利用节点凝聚度的思想构建节点重要度的评价函数,并计算每个节点的局部重要度。然后,对节点重要度进行排序,选取节点重要度与距离乘积值异常大的点作为每个类簇的聚类中心。与DPC、ADPC-KNN算法比较,实验表明IA-DPC算法能够找到具有更高聚类精度的聚类中心,提升亚型聚类的准确率。针对传统聚类方法在癌症基因亚型聚类方面无法获取合理的生物解释,并且不能够解释基因间相互作用的情况,提出一种结合Davies-Bouldin指数的一致性聚类算法(Consensus Clustering with Davies-Bouldin Index,CC-DBI)。该方法采用重采样的手段抽取数据子集,对子集进行聚类构建一致性矩阵,多次运用重采样方法最终达到聚类结果的一致性。它能够反映出样本点的紧密度、克服随机因素的影响,进而可视化最终的聚类结果,运用DBI指数评估聚类结果的质量得到最终结果。实验表明DBI指数能够从可视化的聚类结果中选取最优或较优的聚类结果。综上所述,本文采用IA-DPC算法和CC-DBI算法两种聚类算法模型在8组癌症表达谱数据上进行聚类实验。根据基因表达的差异性进行特征的选择,并引入能够反映聚类结果质量程度的评价指标,验证了本文提出的方法对于基因数据集识别新亚型具有合理性、有效性,也验证出在癌症亚型聚类方面IA-DPC算法、CC-DBI算法的优势之处。
其他文献
企业的债务水平作为企业融资决策的重要组成部分,不仅决定了企业负债和资产的流动性和风险,而且影响企业的战略实施和未来发展。传统的分析企业债务决策影响因素的理论,往往
随着信息时代的到来,现代光学系统正朝着大口径、高精度、高分辨率的方向快速发展,其中光学镜面以优越的光学性能在国家安全和科学发展的战略性重大部署中均占据着重要地位。
美国股票市场和中国股票市场的总市值分别位列全球第一和第二,但二者的发展和成熟程度仍存在一定程度的差距。故通过与美国股票市场进行各方面的比较并分析原因,中国股票市场
金川公司镀镍电解液中所含有的镍约为100 g L-1、铜约50 g L-1和银约24.75 mg L-1,钯、铂、金0.5 mg L-1,酸度为1.0 mol L-1盐酸。在镀镍电解液中高浓度镍铜不仅干扰银的回收
近年来,社交网络服务日益流行,人们在上网购物时,往往容易接受朋友的推荐。很多科研学者尝试将用户的社交网络信息融入到推荐算法中,经研究表明,用户的社交网络信息确实可以
随着具有定位功能的移动设备以及移动计算的快速发展,基于位置的服务(LBS)在物联网中被广泛的应用。即使位置服务给用户带来了诸多的便利,同时也引发了一些严重的位置隐私泄
腐蚀行为是自然界中最为常见的现象,而海洋工程材料的腐蚀行为是它的重要组成部分,腐蚀行为的发生通常存在着普遍性、隐蔽性、渐进性等特征。材料腐蚀行为会带来安全隐患和经
目标跟踪在计算机视觉领域有十分广阔的应用背景,其任务是在视频序列初始帧给定目标初始状态及外观特征,在后续的帧图像中预测此目标物体的状态并标记出来其所在的位置及其形
本文以韩国国内天才出版社出版的高中汉语教材《中国语Ⅰ》为研究对象,运用文献分析、数据统计以及调查问卷等研究方法对教材内容进行调查分析。同时结合本人在韩国京畿道光
随着科技的进步,人类对于加工精度和效率的要求越来越高。砂轮作为一类经常使用的磨具,在精密加工中是不可或缺的工具。单层排布金刚石砂轮由于其出色的磨削性能,及较高的寿