基因表达谱数据聚类算法的研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:feiyang187
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学(Bioinformatics)是伴随着人类基因组计划而产生的一门新的学科,这一学科是集计算机科学、生物学、应用数学、物理等学科为一体的综合学科。基因表达数据提供了大量的基因信息,解密了生命的本质、基因的功能、特性、生命现象的机理以及遗传基因的调控与相互关系,促进了医学的快速发展。鉴于基因表达数据的高维小样本、高噪声的特性,成千上万的基因表达数据该如何处理成为人们研究的焦点,基因芯片技术和微阵列数据分析方法正是随着这一趋势发展起来的一项对于生物信息学很关键的技术。通过合理的数据分析技术对海量的微阵列数据进行分析研究,找出基因之间的表达调控机制,揭示生命现象的本质。聚类分析是数据挖掘的一个重要分支领域,从统计学的角度来说,它是一种多元统计分析法,是对基因表达数据进行分组处理的有效手段。聚类分析是在不给出任何分类标准的情况下,根据待研究对象的特性进行自动分类,这种特性主要是指样本自身的相似性和差异性,使最终的结果满足相似的个体尽可能分到同一类中,不相似的样本尽可能分到不同的类中,达到类内距离最小,类间距离最大的情形。目前,聚类分析在不同应用领域都有广泛的应用,而且在基因表达数据的分析中也成为主流分析法。本文是围绕基因表达数据的聚类问题展开讨论的,主要工作安排如下:(1)对生物信息学、微阵列数据的背景基础知识进行介绍以及介绍了常见聚类分析算法的原理及其应用;(2)详细介绍了传统粒子群算法的基本原理,分析了近几年改进粒子群算法的不足之处,在基于前人研究的基础上,在传统粒子群算法中引入非时变权重因子,即权重因子和压缩因子的结合,提高算法的优化性能和收敛速度。(3)根据基因表达数据和聚类算法的特点,将改进的粒子群算法应用到粒子对算法中,最终利用改进的粒子对算法进行K-means聚类。本文以白血病数据集、蝴蝶迁移性数据集和结肠癌数据集为研究对象,利用改进的粒子对K-means聚类算法对数据进行聚类处理,由实验结果可知,得到了良好的聚类效果,与K-means聚类算法相比,准确率也有所提高。(4)阐述了遗传算法的基本原理,包括各个遗传因子的选择方法的介绍,在总结算法优缺点的基础上进行改进,形成混合聚类算法,以经典实验数据集作为研究对象,用经过特征选择的数据和原始数据分别的聚类效果进行比较验证改进算法的可行性。
其他文献
学位
学位
近三十多年发展起来的电阻抗断层成像技术(Electrical Impedance Tomography-EIT),相比于其他CT技术,以其非侵入性、便携性、价格低廉、响应快速等技术优势,在工业和医学领域
学位
在工业生产中常常会遇到密闭容器内油水液位的检测问题,而这些容器往往存储的是高温、高压、易燃或腐蚀性液体,通常情况下高压密闭罐有时不允许开测量孔,因此不能通过直接接触式
UUV编队在抵近海底执行管道检测、目标搜寻等任务的过程中,不仅需要对其整体系统进行协调控制,以保证编队的稳定性;同时,也要求对系统中的每个UUV个体进行精确控制。最终,保证编队
针对矿井布线复杂和维护困难的特点,结合当前的ZigBee无线传感器网络技术,本论文提出一种基于ZigBee技术的矿井瓦斯监测系统的设计方案。  首先,查阅大量煤矿安全方面的参考文
学位
学位
学位