论文部分内容阅读
测序技术自上世纪七十年代诞生以来,经过几十年的技术革新,最终形成了以下一代测序技术为主导的格局。以第二代测序技术为基础发展的高通量测序技术成为了发育学和疾病研究中最常见而重要的工具。高通量测序技术以及深度测序的普遍化对用于序列比对以及基因定量的软件提出了更高的要求。目前用于处理测序数据的软件从原理上可分为基于序列比对以及免序列比对两种。前者虽然可以保留更多序列局部之间的信息,但是比对时间长、消耗内存大而且容易受突变和测序错误的影响。另外,这类软件一般需要额外的定量软件协助。后者相对来说使用的时间以及资源会少很多,且可以很好地避免由序列的小片段交换重组带来的影响。总的来说,现存的比对软件在精确度上还存在一定的改进空间。因此,我们希望开发一个提高精确度的同时保证速度的定量软件。我们分别将参考序列以及测序片段碎片化,形成特定长度的短序列,并对这些短序列的数量进行统计。每个参考序列包含的短序列的种类以及数量即为该参考序列的特征谱。我们认为,来源于参考序列的各种短序列的数量与来源于测序结果的相应短序列的数量之间存在着线性关系,而找出这二者之间的比例系数,即可得到参考序列的丰度。我们将参考序列的特征谱作为系数矩阵,来源于测序结果的短片段数量作为结果向量,构建线性方程组,并使用最小二乘法对方程组进行简化求解。我们给这个模型设计了一些可调整的参数,并通过一系列梯度实验找出了最优参数值。使用模拟数据进行测试表明,相较于现有的几个主流免序列比对软件,我们的软件总体具有更高的精确度。在对中高表达水平基因的定量上,我们的软件显得更为精准。而对低表达水平的基因来说,我们的软件会出现一些假阴性和假阳性的结果。我们认为可能的原因是这些基因与一些高表达的基因具有高度同源的区域,在后者的干扰下这些基因的定量会被错误的提升或者低估。我们测量了软件定量所需的内存和时间,并与其他一些软件做了对比。结果显示我们的软件在建立索引时会消耗较多的时间和内存,而进行定量时耗费的时间和内存则相对较少。最后我们也在单细胞数据处理上做了初步的延伸,结果表明在时间和内存的使用上,我们的方法存在着较大的优势。通过这个软件的开发,我们希望能够提高测序数据处理的速度以及精确度,以满足研究以及医疗中对快速准确检测的需要。