生物数据集上的频繁序列挖掘和索引技术的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jydliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪是生命科学的时代,也是信息的时代。随着人类基因组计划的实施,基因序列呈指数增长。面对巨大而复杂的数据,运用数据挖掘技术解决基因序列的分析工作是当前一个迫切的需求。 在海量的基因数据库中包含了大量的重复序列,这些重复序列对于基因拼接和分析工作都有着至关重要的作用。如何高效的挖掘这些重复序列,并且为这些重复序列建立高效的索引结构,对现有的数据挖掘技术尤其是频繁序列挖掘技术提出了很大的挑战。 为了解决上述问题,本文的工作就是致力于在生物数据集上进行频繁序列的挖掘和序列索引的技术研究。本文的主要贡献如下: 本文首先提出了一个针对生物数据集的高效的最大化频繁连续序列的挖掘算法,用于解决在基因序列的拼接工作中获取重复序列的问题。算法针对生物数据集拥有大量长的频繁序列的特点,提出了定长跨度的方法深度优先挖掘频繁序列,每次扫描多个项而不是一个项,可以比传统的算法更加快速的生成频繁序列。实验证明,在生物数据集上,比传统的PrefixSpan算法更加高效。 其次,为了解决在海量的生物数据集上进行重复序列的查询需求,同时,又满足具有生物意义的序列匹配要求,本文又提出了一个在生物数据集上的基于带空位个数限制的频繁序列的序列索引算法。算法挖掘生物数据库中的带有空位个数限制的频繁序列并从中挑选最佳序列建立索引,从而获得高效的查询。实验证明,在生物数据集上,算法有着高效的建立索引的效率和高效的查询效率。
其他文献
电信系统的网管软件在国外早已有一些著名的公司进行了研发,并达到了比较大的规模;国内的网管软件的研发虽然起步相对较晚,但比较切实国内网管软件市场的需求,从而得到了快速的发
随着用户对通信业务需求的不断提高,下一代移动通信系统的数据速率将会大大提高,人们已经把目光越来越多地投向第四代(4G)移动通信系统中。实践证明,CDMA与正交频分复用(OFDM)技
信息检索中基于相关反馈的查询扩展语言模型因其能够有效地提高查询效率而得到广泛应用。传统上,有些检索模型都做了独立性假设,即索引词之间是独立的,从而对文档和查询进行
数据的不确定性广泛存在于互联网、通信、经济、信息安全等领域中。在数据挖掘领域,传统的挖掘方法主要是针对精确数据提出的,其挖掘模型未考虑数据的不确定性信息,从而不能
虚拟化技术的广泛应用,基于它能够降低 IT成本,很多公司热衷于它。虚拟化技术为公司节省了硬件开销,提高了硬件资源利用率,能够实现某些硬件系统难以实现的功能,虚拟化技术已成为
从VoIP的出现开始,开发新一代的多媒体网络就成为通信领域的共同目标。以IP技术为主的分组交换网络将取代传统的电路交换网络,成为将来电信网络的主体。但是,由于技术和成本
随着信息和网络技术的发展,产生了以现代信息技术(计算机技术、网络技术和通信技术)为基础的第三代远程教育,即现代远程教育。由于信息社会知识更新速度的加快,现代远程教育
随着普适计算时代的到来,越来越多的嵌入式设备接入了互联网,计算资源的共享跨越了空间和时间的限制,信息安全的问题显得越来越重要。操作系统是嵌入式系统的核心,是系统信息
网络游戏是近年来得到众多关注并且发展极为迅速的一个产业,如今我国的网络游戏业已经进入了发展的高峰期,随之而来的是大量的网络游戏的投入制作。但是,我国游戏制作的现状
医学图像是医生进行临床诊断、病情跟踪、手术计划、预后研究、鉴别诊断的重要客观依据。X光成像技术由于具有简单、痛苦轻、价格低廉、空间分辨高等特点,现今仍在各个医院得