生物序列数据库中序列相似性查询技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:lianghaoxian1988512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术和人类基因组计划的发展,人们积累了越来越多的生物序列信息.如何分析这些生物序列,从中找到人类和其它生物的遗传规律,并提取有价值的知识,是目前人们面临的最大挑战.生物信息学的出现为解决这一难题提供了有效的方法.从生物角度讲,基因序列结构的相似性往往导致其功能上的相似性.因此,我们可以通过搜索相似序列的方法预测新基因序列的功能.这就是我们研究序列相似性查询技术的意义所在.现有的序列相似性查询技术分为基于索引的方法和非索引方法两类.非索引方法往往需要搜索整个数据库,因此其性能很不理想;而基于索引的方法不需要搜索整个数据库,性能较好.然而,现有的基于索引的方法还存在很多问题.首先,这些方法在建立索引过程中使用的变换方法丢失了大量信息,从而导致其距离函数的过滤能力较弱,整个系统的性能不高;其次,它们不能处理任意长度的查询;再次,其后处理阶段有大量的冗余计算,影响了系统的性能.针对这些问题,该文提出了一种基于N分频率变换(N-PFT)的序列相似性查询方法——N-PFT方法.首先,我们提出了一种N分频率变换技术,将字符串变换为高维空间中的向量.这种变换比现有的频率变换和小波变换保留了更多的字符串位置信息,从而使基于这种变换的距离函数有更好的过滤能力.我们还分析了长度对距离的影响,进而解决了处理任意长度查询序列的问题.同时,我们提出了一种新的后处理技术,在保证正确性的同时避免了大量的冗余计算,使系统的性能得到了很大的提高.我们不仅对我们的方法给出了严格的理论证明,而且进行了大量的实验.实验结果表明,我们的方法在各种查询半径下都优于现有的方法,而且性能有几倍至十几倍的提高.
其他文献
供应链系统既是21世纪的企业运营哲理,是由企业级制造模式向世界级制造模式发展的高新产业技术:也是面向21世界的信息产业技术和新一代MIS应用软件研究开发的重点,是电子商务技
自助服务系统以独立的、无人值守的形式为用户提供新颖多样的服务项目,从而真正实现全天候服务。本文主要论述了Agent技术在实现银行自助服务系统平台的业务无关性方面的应用
本论文系统分析了J2EE核心技术和OGSA技术,讨论各自的特性,提出集成OGSA和J2EE技术需要系统解决下面问题:1, 扩展J2EE应用服务器功能,支持OGSI1.0规范,可以在J2EE应用服务器上部署
在移动无线因特网中,移动和组播的结合为两者的应用提供更广泛的发展空间,但同时也带来了新的问题.不同的接收用户,特别是移动用户和固定用户可能因为资源差别或不同的服务需
该文主要对普通网络系统和无线通信网络的可靠性问题进行了研究.按照网络的拓扑结构可分为两部分.1.一般计算机通信网络的可靠性,首先我们定义了一类网络—桥网络,给出了无圈
针对JavaScript语言特点,结合自行开发的嵌入式浏览器JLBrowser对JavaScript的实际需求,可以采取语言编译/解释模型构建嵌入式JavaScript解释系统.解释系统中编译器子模块的
辽宁通信运营支撑系统经过多年的建设,建立起了比较全面的各专业计算机管理系统:计费系统、九七系统、专业网管系统、专业资源系统、客服系统.这些已建成的系统在辽宁通信的
数据采集和存储技术的进步导致人们拥有数据的能力急剧提高并且已经捌有的大量数据还在不断地呈指数级的速度增长.隐藏在这些数据之后的更重要的信息是关于这些数据的整体特