【摘 要】
:
近年来,由于基因组数据呈指数级增长产生了海量的数据,导致现代存储技术也无法满足数据集的存储需求。因此对于数据的传输、存储形成了巨大的挑战。虽然现在有通用的数据压缩
论文部分内容阅读
近年来,由于基因组数据呈指数级增长产生了海量的数据,导致现代存储技术也无法满足数据集的存储需求。因此对于数据的传输、存储形成了巨大的挑战。虽然现在有通用的数据压缩软件可以对基因组数据进行压缩,但是这些压缩软件不能高效的针对基因组的特性进行压缩。因此针对基因序列特点、可以实现对基因序列数据进行高效压缩的算法进行研究很有必要。本文提出了一种基于参考基因组的无损数据压缩算法。利用相同物种间基因组的高度相似性,用目标基因组序列中与参考基因组序列相同的片段以及目标基因组片段在参考基因组序列中的位置、长度和目标序列与参考序列的差异部分,代替目标基因组序列,从而极大的减小中间文件的大小。考虑到本文算法主要由通用计算机来实现,因此必须使用结构轻巧的搜索引擎来完成匹配任务,故而在寻找上述匹配过程中利用后缀数组作为索引结构。因为后缀数组内存占用更小。当进行搜索匹配时,要确定目标字符的左右边界,此时算法运算量较大,故而采用二分查找法来减少算法的运算量。因此本文算法使用后缀数组技术结合二分查找法来寻找目标序列片段在参考基因序列中的最长匹配。本文也对中间结果文件进行了改进,提高了中间文件的压缩率。最后通过高效的熵编码对中间文件完成压缩。实验结果表明,本文算法最多需要20.5分钟内对3GB左右的FASTA格式文件人类完整基因组序列完成数据压缩。30组人类基因组经过本文算法压缩后,其大小在4.99MB至29.96MB之间,其中有21组小于20MB。对于内存需求,本文算法最多需要1.5GB内存容量,远远优于现有优秀的HiRGC基因组序列数据压缩算法。可以在通常的家用电脑上运行,具有较强的实际应用价值。
其他文献
全面预算管理是企业在经营过程中基于对市场前景的预测而实行的系统性、综合性的管理方式,是现代企业管理体系的总纲,已经成为当下众多先进企业的标准管理模式和主要内控手段。C公司作为海航集团下属独资控股公司,主要以教育和投资为主,涉及了众多业务单元。但公司在此之前一直实行传统预算模式,在预算编制、预算执行和预算考核方面存在诸多问题。鉴于此,公司自2016年起开始引进全面预算管理技术。在管理过程中,C公司将
目的:探讨7日龄雌、雄果蝇睡眠-觉醒周期的特征。方法:应用果蝇活动监测系统,对7日龄Canton S品系雌性和雄性黑腹果蝇分别进行24小时连续监测,分别考察雌性与雄性果蝇的全天
茶尺蠖(Ectropis obliqua)是一种广泛分布在长江以南流域茶园中主要的鳞翅目害虫,其幼虫喜食茶树嫩梢且具有暴食性,给茶叶生产带来经济损失,因此在防治过程中虫害爆发前的早
在我国滇西兰坪盆地的西缘,发育了一条重要的脉状铜矿带。对于这套矿床,过去开展了大量研究,但成矿过程中的流体演化不清楚,成矿流体来源存在争议,矿床成因仍处于探讨之中。茅草坪铜矿是近年来在该铜矿带南段新发现一个脉状铜矿,与该区其他脉状铜矿不同,它发育大量与矿化相关的热液电气石。电气石的出现,为研究滇西脉状铜矿的成矿流体提供了一个新的角度。本文对茅草坪热液电气石的发育特征、化学成分和B–H–O同位素以及
到达角估计是一种估计激发天线阵列电磁波传播方向的方法。到达角可以通过电磁波到阵列的每个天线的到达时差计算,而到达时差可以通过每个天线上接收到电磁波之间的相位差计
2013年-2017年,我国汽车销量稳步上升,截止2017年,我国汽车总销量达到2887.89万辆,汽车销量的增长,带动汽车日常维修保养需求的增长,壮大了汽车售后服务市场。汽车备件物流作
太阳能资源的应用越来越受到人们的重视,作为太阳能光伏电池的基础材料,多晶硅材料的需求量也日趋增加。多晶硅的生产方法主要有改良西门子法、流化床法、冶金法这三种,综合考虑来看,改良西门子法具有工艺成熟、沉积速率高、原料相对安全等优点,且能够兼容太阳能级和电子级多晶硅的工业化生产,是工业规模上多晶硅的主流生产技术。改良西门子法工艺虽较为成熟,但高成本及高能耗等因素依然是该方法存在的主要问题及阻碍。而目前
使用空间光学相机获取地物目标信息,是空间观测的主要手段之一。随着信息需求的日益膨胀,对空间光学相机的功能、性能指标要求也越来越高,这就对空间光学相机的设计水平提出
在组合最优化中,装填与覆盖占据一个非常重要的位置.给定一个图,一组边不交的集合称为匹配,一组与图中所有边都关联的顶点的集合称为顶点覆盖.通过这两个概念,两个重要的最优化问题—最大匹配问题(P类问题)和最小顶点覆盖问题(NP-难问题)—对组合最优化的发展起到了巨大的推动作用.经典的K¨onig定理断言,在二部图中,匹配中边的最大数目等于顶点覆盖中顶点的最小数目.本文考虑K¨onig定理的推广形式,探
本文研究了单位球上从μ-Bloch空间到加权Bergman空间上复合算子的有界性和紧致性,以及Dzhrbasian域Bergman空间上复合算子的有界性和紧致性.全文分为四部分.第一章主要对问题研究的背景和意义以及研究现状做了综述,以及列出了部分有关在Bloch空间和Bergman空间上复合算子有界性和紧致性的重要定理.这在很大程度上启发了本文的选题研究.第二章主要研究单位球上从μ-Bloch空间