基因表达数据的若干挖掘方法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:Tengshuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术是近年来分子生物学实验技术的一个突破,利用该技术可以对成千上万个基因的表达进行平行分析。这些基因表达数据通常构成一个数据矩阵,对这些矩阵进行分析和挖掘,才能得到潜在的生物学过程信息。基因表达数据的挖掘是生物信息学的研究热点和难点。在对基因表达数据分析中,双向聚类与频繁模式的挖掘是非常重要的操作。通过双向聚类技术,对基因进行聚类。在同一簇中的基因都具有类似的特征,根据已知的功能基因,能得出同聚类中其他基因的功能。同时,基因表达数据的关联规则分析还可以发现若干个基因在多个样本之间的强弱关联关系。挖掘基因表达的频繁模式能找出它们之间的关联关系。由于基因表达数据的数据量多,计算量大的特点,对数据的处理要求较高。本文主要对如下几个方面的问题进行了深入研究,提出了相应的解决算法。实验表明这些方法简明有效。首先,提出了解决确定性双向聚类问题的ACA_biclustering算法。将蚁群算法ACA运用到双向聚类问题中,给定参数K,找到K个满足阈值的聚类。将N行与M列编码成一个长度为N+M的字符串。字符串表示出了基因表达数据矩阵中包含的聚类,聚类所在的行或列编码成1,否则0,每个字符表示一个节点。某一节点上聚集的信息素越多,则该节点被选择的概率就越大。首先,列出了初始的K个字符串。根据添加/移除此节点是否能最好提高聚类的质量为标准,从第一列的K个节点中选择出某个节点,直至最后一列N+M。这样,每只蚂蚁的结果对应了对K个初始聚类质量的改进。比较所有蚂蚁的执行结果,保留最优解。再进行下一轮的选择,直到解的质量不再提高为止。与其他类似的算法相比,本算法不仅能够得到精确的结果,而且在速度和效率上也有了很大的提高。其次,为了解决不确定性双向聚类问题,提出了基于合并的确定性双向聚类算法MDBC算法。基因表达数据的行数远远大于列数,我们的算法仅对每两列聚类。应用剪枝策略对得到的这些聚类进行筛选。再建立索引树,根据此类聚类的反单调性,采用合并的方法对这些包含列数最少的小聚类进行合并,得出所有满足阈值的聚类。对增量数据问题,无需对所有数据重新聚类。仍采用合并的方法,只需聚类增量数据,再和已有聚类进行合并,这样能快速得出数据增加下的所有聚类。最后,对基因表达数据的频繁闭合模式的挖掘问题进行了深入的研究,提出了高维数据频繁闭合模式挖掘算法EMHCP。将事务集的概念应用到基因表达数据中,不同的实验条件对应了不同事件集。针对基因表达数据维度高的特点,首先建立位图转化表,快速得到在两个事务中出现的项目集,根据这些项目集,建立行集项目集混合树。在构建混合树的同时,采用剪枝策略,来缩小搜索空间。再对混合搜索树,采用深度优先的方法挖掘出所有的频繁闭合模式。
其他文献
智能化是计算机发展的必然趋势,无论是计算机控制,还是商用民用软件,都要求含有越来越高的智能因素,因此人工智能的研究越来越受到重视。20世纪80年代,基于结构演化的人工智能理论
近几年来,在“211工程”及相关计划的推动下,数字化校园建设也有了重大进展。各大高校在网络基础设施、信息系统建设方面日益完善。一方面,这些信息系统都是各个部门根据自己的
本论文研究工作的背景是四川省网络通信技术重点实验室的与核工业部九院的合作预研项目:无人机战术网络(UAS-TN-Unmanned Aerial System Tactic Network)。UAS-TN是一种特殊的
本论文研究的是为四川省某商业集团建立一个企业应用系统的集成平台,为该集团的各应用系统提供工作流服务。此集成平台称为工作流平台(Workflow Platform,WFP),亦称工作流管理系
近几年,随着智能电子产品的广泛流行,语音技术尤其是自动语音识别技术也迎来了新的研究热潮。在现实环境中,语音信号通常会受到各种噪声的干扰,降低了信号的质量以及识别度,从而导
近年来,随着Internet及Web技术的发展以及W3C和相关机构对数学表达式在网络上的表示、传输及转换等方面的研究取得重要成果,国内外众多机构开始深入研究和开发基于Web的数学教
随着信息科学技术的快速发展,网络上的各种信息急剧增长,丰富的信息资源虽然使用户更容易获取所需要的知识,但同时也使人们受到垃圾信息和冗余信息的困扰,这些垃圾信息和冗余信息
我们处于一个信息爆炸的时代,互联网上的中文信息在飞速地增长。通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。而命名实体语义关系抽取是
学位
异构机群系统利用工作站和个人计算机进行分布式并行处理,以较低的成本完成大规模、复杂问题的计算处理。相对于单一的并行计算机,异构机群系统具有较高的性价比,并且非常具有发