一种基于测序数据快速定量基因丰度的新方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sharp_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
测序技术自上世纪七十年代诞生以来,经过几十年的技术革新,最终形成了以下一代测序技术为主导的格局。以第二代测序技术为基础发展的高通量测序技术成为了发育学和疾病研究中最常见而重要的工具。高通量测序技术以及深度测序的普遍化对用于序列比对以及基因定量的软件提出了更高的要求。目前用于处理测序数据的软件从原理上可分为基于序列比对以及免序列比对两种。前者虽然可以保留更多序列局部之间的信息,但是比对时间长、消耗内存大而且容易受突变和测序错误的影响。另外,这类软件一般需要额外的定量软件协助。后者相对来说使用的时间以及资源会少很多,且可以很好地避免由序列的小片段交换重组带来的影响。总的来说,现存的比对软件在精确度上还存在一定的改进空间。因此,我们希望开发一个提高精确度的同时保证速度的定量软件。我们分别将参考序列以及测序片段碎片化,形成特定长度的短序列,并对这些短序列的数量进行统计。每个参考序列包含的短序列的种类以及数量即为该参考序列的特征谱。我们认为,来源于参考序列的各种短序列的数量与来源于测序结果的相应短序列的数量之间存在着线性关系,而找出这二者之间的比例系数,即可得到参考序列的丰度。我们将参考序列的特征谱作为系数矩阵,来源于测序结果的短片段数量作为结果向量,构建线性方程组,并使用最小二乘法对方程组进行简化求解。我们给这个模型设计了一些可调整的参数,并通过一系列梯度实验找出了最优参数值。使用模拟数据进行测试表明,相较于现有的几个主流免序列比对软件,我们的软件总体具有更高的精确度。在对中高表达水平基因的定量上,我们的软件显得更为精准。而对低表达水平的基因来说,我们的软件会出现一些假阴性和假阳性的结果。我们认为可能的原因是这些基因与一些高表达的基因具有高度同源的区域,在后者的干扰下这些基因的定量会被错误的提升或者低估。我们测量了软件定量所需的内存和时间,并与其他一些软件做了对比。结果显示我们的软件在建立索引时会消耗较多的时间和内存,而进行定量时耗费的时间和内存则相对较少。最后我们也在单细胞数据处理上做了初步的延伸,结果表明在时间和内存的使用上,我们的方法存在着较大的优势。通过这个软件的开发,我们希望能够提高测序数据处理的速度以及精确度,以满足研究以及医疗中对快速准确检测的需要。
其他文献
近年来,高管团队对企业的战略决策和战略行动的影响逐渐引起了学术界的高度关注,相关理论获得了长足发展。其中,高阶理论作为战略管理领域的经典理论,主要关注点从高管团队的
脊椎动物人工单性生殖(Unisexual reproduction)中比较常用的两种方式是雌核发育(Gynogenesis)和雄核发育(Androgenesis),人工单性生殖可以极大地缩短获得基因修饰动物纯合子
多羟基结构单元广泛存在天然产物分子和药物分子中,而且,羟基基团在有机合成中也是重要的合成砌块,可以进一步进行官能团转化生成其他官能团。因此,发展高效、绿色、实用的构
逆向工程技术作为全新的计算机辅助设计方法,在现代制造业中得到了广泛的应用,尤其在新产品设计及量测领域,如何在设计阶段基于逆向工程提高产品的精度对复杂曲面设计具有重
随着经济的发展和人们生活水平的提高,消费者对农产品的需求开始从原来量上的满足转变为对质的高要求。与此同时,“瘦肉精”、“毒豆芽”、“黑化肥”等农产品安全事件频繁发
乔治·爱略特是英国维多利亚时代最杰出的小说家之一,几乎每一部小说出版后都好评如潮,而其最后一部长篇小说《丹尼尔·德龙达》却是一个例外,部分学者指出其对犹太人物的塑造可能过于理想化。这部小说是爱略特唯一一部以她自己生活的当代英国社会为背景的作品,因而更为直观地展现了十九世纪中后期英国人的迷惘和面临的困境。小说以两条故事主线展开:英国女孩格温多琳的婚姻与丹尼尔等犹太人的生活。一边是庸俗虚伪、迷失了自我
银纳米颗粒(AgNPs)作为广谱抗菌剂被大量使用,其排放到环境中带来的生态安全问题引起了人们的关注。对于AgNPs的生物毒性,在蛋白与生物体层次已有较为详细的研究,但细胞膜上
铝锆碳质耐火材料广泛应用于钢铁冶炼行业,目前国内外使用氧化锆原料都存在制备能耗大、生产成本、高环境污染的突出问题。本论文研究锆英石在添加剂作用下的碳热还原物相行
甜菊糖苷和甜菊酚酸是甜叶菊中重要的次生代谢产物,也是重要的保健功能成分。甜菊糖苷是低热量高甜度的天然萜类甜味剂,其中甜菊苷(stevio side,SS)和莱鲍迪苷C(rebaudioside
细胞膜上有许多用于行使一些特定功能的特化区域,例如由许多蛋白质在簇集的整合素黏附基础上形成的黏着斑。这些特化区域的动态变化与许多重要的细胞活动有关,如整合素介导的