支持得分矩阵的近似查询处理技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:c1133186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着生物信息学迅速发展,产生了大量的生物数据,对这些生物数据的研究和分析对于指导生命科学研究、揭示生命起源和进化的规律有着重大的意义。生物序列与生物序列模式是这些生物数据中的两种重要内容,在生物信息学研究中,为了对新发现的序列按照其蕴含的模式信息进行分类或者从序列数据库中找出蕴含着某个特定模式信息的序列实例来,往往需要对生物序列与生物序列模式进行匹配。最初,生物序列模式多以固定的字符串来表示,所以生物信息学领域的模式匹配主要通过序列相似性分析等技术实现,包括精确查询和近似查询两种查询处理方法。但是并非所有的生物序列模式都适合用固定的字符串表示,很多时候生物序列模式是以得分矩阵的形式保存的,随着以得分矩阵描述的生物序列模式数据及其数据库的发展壮大,需要有相应的近似查询处理方法来解决这样的模式与序列的匹配问题,这也正是本文的研究所要解决的问题。本文针对提交的查询分别为生物序列和以得分矩阵表示的生物序列模式这两种不同的情况,将支持得分矩阵的近似查询分为在线和离线两种情况。在在线的情况中,本文以顺序前瞻算法为基础,总结了查询处理过程中的过滤原理,分析了两种可能的优化策略,并结合这两种优化的过滤策略提出了多矩阵的前瞻过滤算法。该算法首先对所有输入矩阵进行预处理,构造一个总的过滤自动机,之后以该自动机扫描序列,从中寻找与输入矩阵匹配的序列片段。在离线的情况中,本文以后缀树索引结构为基础,提出了基于后缀树的多矩阵查询算法。该算法对一次查询所提交的所有得分矩阵进行预处理,之后通过对序列的后缀树的一次深度优先遍历就确定多个矩阵与该后缀树对应的序列的匹配情况。基于真实的核酸序列及以得分矩阵描述的模式数据库的实验及测试结果表明,本文提出的算法相较于之前的算法在查询效率上有很大提高。
其他文献
随着网络上丰富且可用的评论资源不断增加,针对观点分析和观点挖掘的研究应运而生。它们针对这些来自网络上对产品或社会问题的公众评论的文本资源进行研究,并从中抽取和总结
无线传感器网络是一种新型的网络,它集成了传感器、嵌入式计算、网络和无线通信四大技术,它的节点可以相互协作地监测、感知和采集各种客观世界的信息,并对其进行处理,再传送
可扩展标记语言(XML, Extensible Markup Language)常被应用于简化数据的存储和共享,同时它也逐渐成为了一套规范的语义标签语言,使得人们在计算机中定义数据类型更加容易。
随着信息技术的普及和发展,互联网上的网页数量呈指数级增长。人们要想在短时间内准确的得到自己想要的信息,就要预先对互联网信息就行分类整理。由于网页中的信息大部分是文
移动通信领域的飞速发展,3G在中国正式商用一周年,使手机应用领域得到了巨大的发展。3G推动了BREW平台在手机终端应用领域的飞速发展,也推动了与人们日常生活息息相关的移动
随着Internet的发展,传输层单穴的端到端通信协议如TCP.UDP在传输性能、容错性和安全性等方面皆受到了极大的挑战。传输层多穴的端到端通信协议如基于SCTP的同时多路传输CMT(
随着信息时代的到来,人们需要分析处理越来越多的数据,而这些海量数据的背后隐藏着大量的人们所需要的规则和知识,数据挖掘就是随着人们的这一需要应运而生的。虽然最近几十
随着计算机内存的不断增大,内存数据库逐渐成为研究的热点。单线程在线事务处理模型在内存数据库中被广泛使用。单线程在线事务处理模型基于数据库静态的分区信息,为每个分区
随着国内高校规模的迅速扩大和教育体制的不断改革,高校教务管理工作量大幅度增加,其复杂性也越来越大,这使得高校教务管理工作的信息化和网络化势在必行,开发高效的基于网络
语义Web作为当前Web的扩展,旨在使得Web中的信息具有语义,从而能够被计算机理解,便于人和计算机之间的交互与协作。本体是领域知识共享的形式化描述,语义Web的实现很大程度上