论文部分内容阅读
随着基因测序技术和人类基因组计划的发展,人们积累了越来越多的生物序列信息.如何分析这些生物序列,从中找到人类和其它生物的遗传规律,并提取有价值的知识,是目前人们面临的最大挑战.生物信息学的出现为解决这一难题提供了有效的方法.从生物角度讲,基因序列结构的相似性往往导致其功能上的相似性.因此,我们可以通过搜索相似序列的方法预测新基因序列的功能.这就是我们研究序列相似性查询技术的意义所在.现有的序列相似性查询技术分为基于索引的方法和非索引方法两类.非索引方法往往需要搜索整个数据库,因此其性能很不理想;而基于索引的方法不需要搜索整个数据库,性能较好.然而,现有的基于索引的方法还存在很多问题.首先,这些方法在建立索引过程中使用的变换方法丢失了大量信息,从而导致其距离函数的过滤能力较弱,整个系统的性能不高;其次,它们不能处理任意长度的查询;再次,其后处理阶段有大量的冗余计算,影响了系统的性能.针对这些问题,该文提出了一种基于N分频率变换(N-PFT)的序列相似性查询方法——N-PFT方法.首先,我们提出了一种N分频率变换技术,将字符串变换为高维空间中的向量.这种变换比现有的频率变换和小波变换保留了更多的字符串位置信息,从而使基于这种变换的距离函数有更好的过滤能力.我们还分析了长度对距离的影响,进而解决了处理任意长度查询序列的问题.同时,我们提出了一种新的后处理技术,在保证正确性的同时避免了大量的冗余计算,使系统的性能得到了很大的提高.我们不仅对我们的方法给出了严格的理论证明,而且进行了大量的实验.实验结果表明,我们的方法在各种查询半径下都优于现有的方法,而且性能有几倍至十几倍的提高.