基于基因组数据的癌症亚型谱聚类方法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:jzymw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是威胁人类生命的主要疾病之一,有效提高癌症检测机制在未来的癌症研究工作中具有非常重要的意义。随着高通量测序技术的诞生与发展,基因组数据为癌症的发现与治疗带来了新的机遇。但是基因组数据往往表现出高维、小样本和高噪声等特点,传统的聚类方法很难直接应用在癌症基因组数据的挖掘分析中。本文将在研究基因组数据的基础上,以基于图论的谱聚类算法为主要研究方向,建立一种基于图论的谱聚类算法模型,对现有谱聚类算法进行改进,本文主要开展了以下几个方面的研究工作:针对传统的谱聚类算法不能很好地描述空间中数据点之间的关系,提出一种密度相似性的谱聚类算法代替Gaussian核函数作为相似性度量的标准。当两数据点是邻接关系时,将Hsim度量方法作为欧氏距离的一个权重值,避免数据点自身的信息对数据点之间的相似度测量存在过大的影响;当两数据点不是邻接关系时,采用设计的密度相似性度量方法,减小高密度区域数据点之间的距离,放大低密度区域数据点之间的距离,更好地反映数据集的真实分布情况。针对大规模数据集中Laplacian矩阵的特征分解会造成过高的时间和空间上的复杂度问题,提出了一种改进的随机奇异值分解方法来计算样本子矩阵的特征向量。利用Nystr?m低秩逼近的方法通过对数据集采样和近似策略来降低计算复杂度,利用矩阵的对称性以抽取到更有意义的点,并采用改进的奇异值分解方法节约计算成本在保证聚类精度的情况下提高算法效率。为了验证密度相似性的谱聚类算法的准确性,分别在人工数据集和真实数据集上通过对实验后的聚类效果图及聚类结果进行分析比较,可以得到改进的密度相似性的谱聚类算法能够更好地刻画数据点间的关系并提高了算法的准确性。为了验证改进的随机SVD的Nystr?m谱聚类算法在癌症基因组数据上的亚型聚类应用,在癌症基因组图谱计划中的胰腺癌和基因表达数据库中的胃癌数据集上进行聚类,从生存曲线和基因表达热图分析聚类发现的癌症亚型病理学上的意义。最终确定课题所提出的改进的随机SVD的Nystr?m谱聚类算法可以应用在基因组数据的亚型发现。
其他文献
目的:探讨NLRP3炎性小体在电离辐射所致小鼠认知障碍中的作用。方法:60只昆明小鼠随机分为正常对照组(Control组)、辐射组(IR组)、辐射+MCC950组(IR+MCC950组),每组20只;IR组和IR+M
胡仁·乌力格尔最初诞生于蒙汉杂居的东蒙古地区。因此,它是汉族与蒙古族文化交融互补下形成的独具特色的口头文化形式。它的表现形式虽为蒙古族的口头艺术形式,其内容却深受
本研究针对糜棱岩断层破碎带盾构隧道涌水问题,采用理论分析、数值模拟等方法深入探讨隧道涌水机理以及涌水对周围土体、衬砌的影响。建立三维有限差分模型分析断层破碎带水
鼻咽癌是一种常见的头颈部鳞状细胞癌,在我国华南地区高发。然而,由于疾病确诊时间晚、且常伴有局部复发与远处转移,鼻咽癌患者预后差。因其高放射敏感性,鼻咽癌的标准治疗方
目的:乳腺癌是女性中最常见的恶性肿瘤,极大威胁着全球女性的健康。随着分子分型的建立,放疗、化疗、新辅助治疗、免疫治疗等综合诊疗手段的进展,乳腺癌的死亡率得到了有效的
研究背景:发热是自身免疫性疾病患者合并感染或疾病活动的一种常见症状,临床难以区分。对感染的自身免疫性疾病患者使用激素等免疫抑制类药物会加重感染,而在自身免疫性疾病
所谓排舞(Line dance),是指以音乐为核心、舞步变化为基础、段落循环为重要表现手段的国际通用标准舞。作为全民健身运动推广项目之一,排舞不仅具有简易性、观赏性、娱乐性等
随着全球化趋势日益加剧,中国在世界舞台上扮演的角色越来越重要,各国友人想要了解中国的愿望越来越迫切,因此,文化的对外传播与发展是大势所趋。中国文化源远流长、博大精深。所以,学术文化外译工作不容忽视,因为它承载着传播与弘扬优质中国文化因素的使命。本报告基于王蒙所著《王蒙学术文化随笔》一书中三篇文章的翻译实践所撰写。该书作者在这三篇论文中分别探讨与抒发了在政治、生活、文化领域的所见所闻与感想,内容广泛
当前,我国的环境问题日益凸显,北方城市冬季供热所造成的污染使环境问题更为明显。电能具有清洁高效的特点,热泵,发热电缆以及电热膜等以电为能源的供热方式在极少部分地区得
Stormer曾证明:若(x,y)是Pell方程x2-Dy2=±1(D>0为非平方的整数)的正整数解,且y的所有素因子均整除D时,(x,y)就是Pell方程x2-Dy2=±1的基本解。本文把Stormer定理推广到方程kx2-ly2=1(k,l∈N,k>1,(k,l)=1,kl不是平方数)与kx2-ly2=2(k,l∈N,(k,l)=1,kl不是平方数),讨论了方程kx2-ly2=1,