论文部分内容阅读
核小体是真核生物染色质的基本组成单位,它的位置与多种生物学过程紧密相关,如DNA复制、RNA剪切以及染色质重塑等等。随着高通量测序技术的发展,越来越多的学者对核小体定位进行了研究,取得了许多成果。为了进一步探索核小体定位机制,本文对核小体定位的理论预测模型做出了进一步完善。 本文基于DNA序列的自相似性特征、分别利用多样性增量与相对熵提出了两种新的核心DNA预测模型,并在相关数据集上验证了该方法的有效性。 首先,基于DNA序列的自相似性特征与多样性增量,本文提出了基于DNA序列的k-mer信息的广义多样性增量预测模型(GID-BP)用于预测核心DNA。本文将此模型应用到人类、蠕虫、果蝇与酵母的核小体定位中以验证模型的有效性。实验结果表明本文预测模型在人类、蠕虫、果蝇与酵母数据集上的分类准确率分别达到了87.89%,89.76%,85.50%,99.94%。 其次,基于DNA序列的自相似性特征与相对熵,本文提出了基于DNA序列的k-mer信息的广义相对熵模型(GRE-SVM)用于预测核心DNA。本文将此模型应用到人类、蠕虫、果蝇与酵母的核小体定位中以验证模型的有效性。实验结果表明在人类、蠕虫、果蝇与酵母数据集上的分类准确率分别达到了88.61%,88.46%,83.76%,100%。 同时,本文在GID-BP模型中应用基于贡献率与spearman相关系数的关键因素分析法来寻找核小体定位过程中的关键因素,在GRE-SVM模型中应用基于随机森林的关键因素分析法来寻找核小体定位过程中的关键因素。基于随机森林的关键因素分析法的详细过程如下所示:首先,通过随机森林的方法计算与核小体定位相关的特征向量的权重;然后,将得到的特征权重与预先设置的阈值进行比较分析;最后,通过比较结果获得与核小体定位密切相关的特征向量。实验结果表明不同生物中影响核小体定位的关键因素是不同的:(1)GID-BP模型表明正负六联体在核小体定位中发挥着重要的作用;(2)GRE-SVM模型表明正四联体、正负五联体与正负六联体在四种生物的核小体定位过程中均发挥着重要的作用。