基于树结构的生物数据挖掘算法的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yuhang0211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是在生命科学研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。目前研究重点主要在基因组学(Genomics)和蛋白质学(Proteomics),即分析核酸和蛋白质中表达结构功能的生物信息。数据挖掘作为一种以数据库、统计学和人工智能学为基础的技术,为生物学家提供了有力的信息分析工具。数据挖掘中的频繁模式挖掘技术专注于发现数据中频繁出现的特征模式。根据特征模式复杂性,可分为频繁项模式、频繁序列模式以及频繁子树模式等。本文对RNA分子建立树形模型,利用频繁子树挖掘算法挖掘RNA二级结构中的公共拓扑模式。本文首先概括了频繁模式挖掘技术及频繁子树挖掘算法的现状,介绍了RNA二级结构预测的主要方法,探讨了目前数据挖掘技术应用于生物数据所存在的问题。然后给出了与频繁子树有关的概念,区分了嵌入子树和直接子树,定义了同构交叠子树和最小性。在此基础上,对挖掘嵌入子树的TreeMiner算法和PatternMatcher算法进行了分析。这两种算法分别采用垂直挖掘方式和水平挖掘方式,但是在挖掘过程中均无法区分同构交叠子树。本文提出了挖掘嵌入子树的算法DistinctTM(distinct tree mining)。本算法剔除了同构交叠子树带来的冗余,保持了模式在一棵树上的最小性。实验结果表明,该算法优于TreeMiner算法和PatternMatcher算法。最后,本文给出了对RNA二级结构建立树模型的方法,使用DistinctTM算法挖掘了其中的公共拓扑模式。
其他文献
作为中国第一大河、世界第三大河的长江,拥有丰富的水资源,在促进我国工农业生产、提供生活用水、发展旅游业、航海业等方面发挥着举足轻重的作用。长江流域的发展对于中国的发
近些年来,全球各地的灾害事件频频发生,造成的损失和影响非常巨大。如何对付突发事件引人深思,另外在应对紧急事件、重要赛事以及大型活动等方面也经常需要应急通信服务,包括语音
变电站作为电力系统的主要组成部分,其是否能够正常稳定的运行对整个系统来说是至关重要的。变电站设备及缺陷管理系统就是为加强变电站的管理质量、保障其安全稳定的运行而
随着科学技术,特别是信息技术的发展,图象处理技术已经成为科学研究不可缺少的强有力工具。在医学图象处理领域,借助计算机来进行图象处理和分析,是图象处理技术结合医学影像
随着传统搜索引擎技术发展的成熟,个性化智能检索逐渐成为搜索引擎的主要发展方向。通过对用户的主题偏好建模,实现基于主题的个性化检索,将有助于发现用户的潜在需求,提高检索服
通过回顾国际上有关侧加热腔体内自然对流的最新研究进展,本论文的研究聚焦在侧加热腔体内重力波的发展演化过程。基于已发表的实验结果,通过合理的简化得到了该流动的基本控制
本文根据数据挖掘技术的特点,对房地产管理系统中所产生的销售数据提取特征,来有效的分析销售趋势,取得更好的销售业绩。通过分析房地产销售数据的结构、基于数据挖掘技术背景、
本文主要研究面向网格的算法并行实现技术,研究面向网格的可扩展并行计算模型,构造面向网格的并行演化算法框架。本文在实现基于群体分组并行策略的演化算法(Coevolution-typep
网络安全事件应急响应联动系统目前尚未有广泛的接受的模型,其主要功能和目的是为了应对各种网络安全事件,协调应急响应组织人力和信息资源。本文以目前应急响应的技术和应急
随着企业信息化的深入和计算机技术的发展,企业业务模式发生了巨大变化,企业应用集成(EAI,Enterprise Application Integration)越来越成为各个企业所关注的焦点。Web服务作为一