高度相似基因组序列数据集的压缩算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:heruoss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,测序需要的成本急速下降,得到的基因组数据呈爆炸式增长,因此有效地存储和搜索这些基因组数据成为了急需解决的问题。压缩技术可以减少数据的存储空间,所以优秀的压缩索引算法成为了解决这一问题的关键技术。研究发现基因序列与普通文本数据的结构不同,序列中包含较多的冗余信息,而且同一物种或者按照生物分类法则划分的较相近的物种间的序列相似度很高,通用的文本压缩算法无法有效地压缩及搜索基因组序列集。所以,需要研究针对高度相似基因组序列数据集的压缩索引算法。本文提出一种新的基于参考序列的压缩索引算法FMQ,能够高效地存储和搜索基因组序列集。主要思路是将序列集划分为参考序列和非参考序列,然后计算非参考序列与参考序列之间的差异信息,再设计压缩索引结构存储这些差异信息,并提出了在压缩索引结构上的搜索算法(包括子串提取和模式定位算法)。具体工作如下:压缩索引构建。首先,随机选取一条序列作为参考序列,顺序比较参考序列与非参考序列,得到不匹配的子序列,利用最长公共子序列算法获得参考序列与每个子序列之间的公共部分,根据公共部分逆推得到序列间的差异信息。然后,根据差异信息不同部分的特点,分别对差异位置,差异类型和差异碱基信息设计各自的压缩索引结构。这些差异信息的压缩索引结构所占空间为o(n)比特,其中n为参考序列的长度。在压缩索引结构上的查询。本文在所建立的压缩索引结构上,提出了子串提取算法和模式定位算法。子串提取算法能够在O(n/log n+len+log~2n/loglog n)时间内提取长为len的子串。模式定位算法将模式划分为等长的子模式集,利用建立的压缩索引结构搜索这些子模式在基因组序列集中出现的所有位置,并通过哈希表筛选出原始模式出现的所有位置。模式定位算法的时间复杂度为O(m(9)occ(9)n/log n),其中m为序列个数,occ是所有子模式在参考序列上出现的次数之和。实验结果。在Pizza&Chili Corpus标准数据集上测试了所提方法FMQ的索引构建时间,压缩率及查询性能。实验结果表明,相比于主流的几种相关压缩索引方法,FMQ在索引构建时间和压缩率上具有显著优势,索引构建时间最短,并且索引大小仅占其余方法的10%-60%。在查询性能方面,FMQ的模式定位算法性能较好,同时子串提取算法与所测试的几种方法相比性能接近。
其他文献
随着移动通信技术、全球定位技术以及智能手机的迅猛发展,移动对象轨迹数据不断积累,呈现出爆炸式增长趋势,对于移动对象的轨迹预测的需求逐渐增加,移动对象的轨迹预测成为当
随着互联网与信息技术的快速发展,全球化时代的浪潮推动了世界经济、文化、政治的深入交融,在将各国紧密联系在一起的同时带来了一系列的全球性的环境问题,“全球胜任力”的人才培养战略应运而生,并且引发了教育界强烈的响应。与此同时,如何发挥地理学科在培养全球胜任力上的天然学科优势,成为各国地理教育工作者关注的焦点。随着我国地理核心素养的提出,如何让地理教学评价体系满足对全球胜任力下的地理教学,也成为了我国地
当前,我国都市人口数量剧增,都市化的形成和发展,导致都市非正常死亡事件频发。而作为基层一线处置事件的公安机关,没有相对成熟且固定的处置机制,这给非正常死亡事件的有效处置带来了极大的隐患,导致近几年来频发出现非正常死亡事件引发的社会舆情和群体性事件,给社会管理造成了不可估量的损害。本文以基层公安机关对非正常死亡事件处理机制为研究对象,采用文献研究法、比较分析法和案例分析法,对国内外公安机关处置死亡事
视频信号是人类感知自然界的重要媒介,它在多媒体通信及信号处理领域中扮演着不可替代的角色。然而,由于视频信号既包含静态的图像信息,又包含动态的运动信息,因此视频信号相
自香港回归之后,香港与内地的文化、经济交往日益密切,内地人入港带动了香港旅游业的繁荣发展。然而,在两地融合的主题下,由于历史、文化以及生活习惯等方面存在巨大差异,两地出现了多起冲突事件,矛盾日益加深。随着时间的累积,伴随而来的是香港人对内地人的疏离和排斥。由于香港民众了解内地人的渠道和程度有限,香港媒体对内地人的报道,是港民了解内地人群体的重要渠道,其呈现的内地人形象是否客观真实,对港民正确认识内
随着无线通信技术的发展,用户数据的爆炸式增长,人们对数据速率、系统容量提出了更高的要求。而分级结构或异构网络的广泛使用,网络部署的高度密集化等,使得干扰成为制约网络
蜂窝技术在码分多址系统中起着非常重要的作用。在构造蜂窝系统时一个主要的问题就是希望单个蜂窝内的正交序列个数尽可能的多,从而可以提供更多的用户服务;同时为了避免编码
由于超宽带具有非常强的多径分辨能力,因此被广泛应用在短距离定位技术领域,比较常见的是室内环境下的超宽带定位。但是由于超宽带信号具有十分宽的带宽,按照传统的奈奎斯特
随着社会经济发展和医疗水平提高,我国老龄化进程不断加快。老龄人口数量庞大,导致养老服务问题日益严峻,催生了政府购买养老服务的工作模式。此外,老年人的服务需求发生了多元变化,其中以健康养老服务需求最为突出,政府也出台了相关政策条例支持健康养老服务业发展,但政府购买健康养老服务仍处于探索完善的初级阶段,在政策执行过程中仍然存在一些问题。根据上述背景,研究基于政策执行过程模型,从理想化的政策、目标群体、
油压减振器是现代铁道机车车辆上的关键悬挂部件,对机车车辆的安全性、舒适性和整车运动稳定性均起着重要作用,开展其低温阻尼特性研究,对提高其环境适应性和高寒型列车的动力学性能具有重要意义。本文首先对减振器油在宽温度范围内的物理特性进行了实验与理论研究,提出了一种适合于描述减振器油在宽温度范围内,其密度-温度的理论计算模型和基于改进Vogel公式的粘度-温度模型,克服了现有物理特性理论公式仅适用于常温条