论文部分内容阅读
对DNA序列上的功能位点的识别成为生物信息学中的长期热点之一。在对功能位点进行预测时,有不同的方法来选择保守片段和识别功能位点。本文基于极限学习机和支持向量机提出了一种识别功能位点的新方法,而且给出了新的保守性强度公式来决定保守片段。本文先通过定义每个位点的保守性强度公式来确定保守区域,然后在多尺度参数的基础上,利用紧邻与非紧邻位置关联权重矩阵来提取保守区域的关联特征,在多样性增量分析的基础上,提取上下游片段的碱基组成分特征,最后利用支持向量机和极限学习机分类器来整合特征信息。剪接位点识别:在剪接位点识别上,首先计算所有样本中每个位点的保守性强度,从而量化选择保守片段和上下游片段,利用紧邻与非紧邻位置关联权重矩阵(PCWM-ANA)和组成分的多样性增量(IDSC)得到5维特征向量来描述序列的信息。从人类剪接位点数据集HS3D分别构建1:1和1:10正负集,用支持向量机分类器整合5维特征向量进行识别。在对1:1的数据集进行预测时,供、受体位点的五折交叉验证的马修斯相关系数分别为0.924、0.947,在对1:10的数据集进行预测时,供、受体位点的五折交叉验证的马修斯相关系数分别为0.754、0.734。它们的结果明显优于现有的文献报道的结果,尤其是受体位点的预测精度。为了解决大数据下支持向量机收敛速度较慢的问题,本文引进了一种学习速度快、泛化性能好的极限学习机算法。结果证明,利用它进行预测的精度和支持向量机是不分伯仲的。启动子识别:从真核启动子数据库EPD选取1400条启动子作为正集,选取1290条编码序列和1264条内含子序列作为负集。首先,利用保守性强度公式选择保守片段,对其进行位点之间的关联信息分析,对整段序列进行碱基组成分信息和CpG岛信息分析,得到13维特征向量来描述序列的信息。利用支持向量机分类器来构建特征向量,采用五折交叉验证,对启动子和编码序列识别得到马修斯相关系数为0.975,对启动子和内含子识别得到马修斯相关系数为0.946。总之,本文模型对剪接位点和启动子预测精度都有很大的提高,优于其他论文的结果。