生物数据集上的频繁序列挖掘和索引技术的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：jydliu

【摘要】

：

二十一世纪是生命科学的时代，也是信息的时代。随着人类基因组计划的实施，基因序列呈指数增长。面对巨大而复杂的数据，运用数据挖掘技术解决基因序列的分析工作是当前一个迫切的

【作者】

：

潘瑾

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2006年期

【关键词】

：

基因序列数据挖掘频繁序列索引技术生物数据集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

二十一世纪是生命科学的时代，也是信息的时代。随着人类基因组计划的实施，基因序列呈指数增长。面对巨大而复杂的数据，运用数据挖掘技术解决基因序列的分析工作是当前一个迫切的需求。在海量的基因数据库中包含了大量的重复序列，这些重复序列对于基因拼接和分析工作都有着至关重要的作用。如何高效的挖掘这些重复序列，并且为这些重复序列建立高效的索引结构，对现有的数据挖掘技术尤其是频繁序列挖掘技术提出了很大的挑战。为了解决上述问题，本文的工作就是致力于在生物数据集上进行频繁序列的挖掘和序列索引的技术研究。本文的主要贡献如下：本文首先提出了一个针对生物数据集的高效的最大化频繁连续序列的挖掘算法，用于解决在基因序列的拼接工作中获取重复序列的问题。算法针对生物数据集拥有大量长的频繁序列的特点，提出了定长跨度的方法深度优先挖掘频繁序列，每次扫描多个项而不是一个项，可以比传统的算法更加快速的生成频繁序列。实验证明，在生物数据集上，比传统的PrefixSpan算法更加高效。其次，为了解决在海量的生物数据集上进行重复序列的查询需求，同时，又满足具有生物意义的序列匹配要求，本文又提出了一个在生物数据集上的基于带空位个数限制的频繁序列的序列索引算法。算法挖掘生物数据库中的带有空位个数限制的频繁序列并从中挑选最佳序列建立索引，从而获得高效的查询。实验证明，在生物数据集上，算法有着高效的建立索引的效率和高效的查询效率。

其他文献

电信系统集中网管的研究与实现

电信系统的网管软件在国外早已有一些著名的公司进行了研发，并达到了比较大的规模；国内的网管软件的研发虽然起步相对较晚，但比较切实国内网管软件市场的需求，从而得到了快速的发

学位

电信管理网操作维护中心J2EE配置管理

MC-CDMA系统自适应调制算法的研究

随着用户对通信业务需求的不断提高，下一代移动通信系统的数据速率将会大大提高，人们已经把目光越来越多地投向第四代(4G)移动通信系统中。实践证明，CDMA与正交频分复用(OFDM)技

学位

MC-CDMA自适应调制贪婪分配理论分配正交恢复合并最小均方误差合并

基于查询词依赖性的查询扩展语言模型

信息检索中基于相关反馈的查询扩展语言模型因其能够有效地提高查询效率而得到广泛应用。传统上,有些检索模型都做了独立性假设,即索引词之间是独立的,从而对文档和查询进行

学位

信息检索查询语言模型隐马尔科夫模型查询词依赖性查询词分解

面向不确定性数据的若干分类算法研究

数据的不确定性广泛存在于互联网、通信、经济、信息安全等领域中。在数据挖掘领域,传统的挖掘方法主要是针对精确数据提出的,其挖掘模型未考虑数据的不确定性信息,从而不能

学位

区间不确定性数据数据分类支持向量机朴素贝叶斯模糊决策树

一种基于可信计算技术的虚拟机迁移方案

虚拟化技术的广泛应用，基于它能够降低 IT成本，很多公司热衷于它。虚拟化技术为公司节省了硬件开销，提高了硬件资源利用率，能够实现某些硬件系统难以实现的功能，虚拟化技术已成为

学位

可信计算虚拟机第三方监督安全性

小型SIP/PSTN网关的设计与实现

从VoIP的出现开始,开发新一代的多媒体网络就成为通信领域的共同目标。以IP技术为主的分组交换网络将取代传统的电路交换网络,成为将来电信网络的主体。但是,由于技术和成本

学位

NGNPSTNVoIPSIPSIP/PSTN网关

基于Agent的智能答疑系统的研究与实现

随着信息和网络技术的发展,产生了以现代信息技术(计算机技术、网络技术和通信技术)为基础的第三代远程教育,即现代远程教育。由于信息社会知识更新速度的加快,现代远程教育

学位

答疑系统建构主义AgentAgent的构建

嵌入式操作系统安全机制研究与扩展实现

随着普适计算时代的到来,越来越多的嵌入式设备接入了互联网,计算资源的共享跨越了空间和时间的限制,信息安全的问题显得越来越重要。操作系统是嵌入式系统的核心,是系统信息

学位

安全操作系统B1级安全标准访问控制安全扩展安全审计

MMOG网络引擎中同步技术的研究与设计

网络游戏是近年来得到众多关注并且发展极为迅速的一个产业,如今我国的网络游戏业已经进入了发展的高峰期,随之而来的是大量的网络游戏的投入制作。但是,我国游戏制作的现状

学位

MMOG网络引擎同步客户端预测

Ⅲ型肺结核病灶辅助诊断定位系统

医学图像是医生进行临床诊断、病情跟踪、手术计划、预后研究、鉴别诊断的重要客观依据。X光成像技术由于具有简单、痛苦轻、价格低廉、空间分辨高等特点，现今仍在各个医院得

学位

医学图像边缘检测边界跟踪曲线拟合肺结核

生物数据集上的频繁序列挖掘和索引技术的研究

其他学术论文