论文部分内容阅读
活体细胞内的基因通常按照一定的顺序进行基因表达,但在某些情况下,会因环境条件等因素的变化导致基因突变,并引起一定的表型异常变化,即所谓的差异基因表达。基因芯片数据差异基因表达检测统计方法作为近几年迅速发展的生物学前沿技术之一,其主要目的是分析基因表达谱数据的生物学意义,并采用微阵列基因芯片技术同时、快速、准确的检测成千上万种基因是否有差异表达。基因芯片差异基因表达检测研究单基因水平的基因表达谱数据,利用统计学中的假设检验,从基因表达谱数据中筛选出潜在的、过表达的癌症样本,并研究有关基因和基因群组,发现癌症特异性基因。差异基因表达检测的应用广泛,例如研究适应药物作用的分子机制,寻找新药开发源头的药物靶标,筛选多靶点高通量药物,评价药物活性和毒性等,对揭示癌症疾病发生机制、开发抗癌药物等方面有重要的意义。基因芯片差异基因表达检测技术的核心方法通常基于统计学原理,即利用统计学中的假设检验从基因表达谱中筛选出潜在的特异性基因。传统差异基因表达检测的前提是假设整个癌症样本组的基因表达强度相对于正常样本组的基因表达强度都存在过表达的情况。2005年Tomlins等人在Science上撰文指出差异基因表达可以只出现在癌症样本组的某个子集中,而不是整个癌症样本组。近年来,有大量的研究工作针对癌症样本组子集的差异基因表达问题展开,并且产生了多种用以解决这类问题的统计方法。本文的工作是针对癌症样本组子集的差异基因表达检测,并主要体现在如下几个方面:1)对六种广泛应用的差异基因检测方法做了比较研究,包括T统计方法、PPST方法、COPA方法、OS方法、ORT方法和MOST方法。T统计方法是传统的差异基因表达检测方法,其假定癌症样本组相对于正常样本组普遍呈现过表达,通过计算正常样本组和癌症样本组的均值及合并标准差,求得T统计值。PPST方法通过识别在A组统计学意义样本中表现值强度超过B组统计学意义样本中基因的表达值强度一个特定的百分比的基因来检测差异基因。COPA方法、OS方法、ORT方法和MOST方法中用样本中值和中值绝对离差进行样本表达值的转换。OS方法在COPA方法的基础上利用四分位数间距能度量数据分散性,ORT方法和OS方法区别在于OS方法的基因表达数据是正常组样本和癌症组样本的全部数据一起使用,而ORT方法是相对正常组样本数据定义的。MOST方法隐性地考虑差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而来检测差异表达基因。文章通过模拟实验和对真实数据的实验,比较和分析了T统计方法、PPST方法、COPA方法、OS方法、ORT方法和MOST方法差异基因表达检测方法。2)提出了两种用于差异基因表达检测的统计量,即三均值和三均值绝对离差。当微阵列基因芯片数据中存在差异表达基因值时,其均值易受差异表达基因值影响,中值具有较好的稳健性且受差异表达值的影响较小。三均值综合利用了上四分位数、下四分位数、中位数三个数据,对异常数据具有较强的抗扰性。当需要充分利用样本信息和稳健性特征时,样本三均值和三均值绝对离差可以描述数据变化,不忽略距离中位数较远的信息,从而能够全面、稳定的表示样本的信息。3)提出了针对癌症样本组子集的差异基因表达检测方法。在ORT方法的基础上提出了差异基因表达检测方法TriORT方法,TriORT方法以三均值和三均值绝对离差为统计量表示数据转换的变化。TriORT方法采用了中位数及少数其它次序统计量,能充分反映基因芯片中样本数据的特征,并且稳健性较强。通过启发式规则附加表达值,利用四分位差判断基因芯片数据的异常差异值,从而进行差异基因表达检测。实验结果表明,本文提出的基于三均值和三均值绝对离差的差异基因表达检测方法对于癌症组样本子集相对于正常组样本过表达的差异基因表达检测有效,并具有较好的敏感性和特异性。4)提出了针对癌症样本组子集的差异基因表达检测方法。在MOST方法的基础上提出了一种基于三均值的差异基因表达检测方法,称之为TriMOST方法。该方法将三均值引入到癌症组样本子集相对于正常组样本过表达的差异基因表达检测方法中,通过用三均值和三均值绝对差对样本表达值进行转换,当差异基因活跃的数目未知时,又引入了均值和方差,使用标准化的、代数形式的表达值间的差别确定差异基因的标准,尽可能较全面地考虑可能的阈值,将可能的值默认为差异表达阈值,从而使得检测的效果理想。5)讨论并分析了改进的方法和已有差异基因表达检测方法在乳腺癌真实数据上的应用。为了进一步研究本文所提出的差异基因表达检测方法的性能,首先将改进方法的仿真实验结果和已有的方法进行比较,然后将改进方法应用到乳腺癌真实数据集West(2001),再将得到的结果在NCBI数据资源库上进行验证,并针对验证结果对各方法的性能进行对比分析。检测乳腺癌差异表达基因,并认识相应基因群,这对乳腺癌疾病的治疗提供了有益的辅助信息。综上所述,本文针对癌症样本组子集相对于正常样本组存在过表达的情况,提出了两种改进的差异基因表达检测方法。仿真实验表明,所提出的多种差异基因表达检测方法均具有较好的敏感性和特异性,且其检测效果较已有的检测方法理想。此外,将提出的方法和已有方法应用于真实的乳腺癌数据集,并对其检测结果进行验证。通过实验分析,可知在癌症样本组子集相对于正常样本组过表达的基因芯片数据差异基因表达检测中,基于三均值和三均值绝对离差的差异基因表达检测方法能够反应基因芯片的数据特征,具有较好的稳定性。