论文部分内容阅读
随着人类基因组计划的完成,生物数据增长的速度非常快。传统的生物实验的方法在庞大的数据前显得十分乏力。如何快速而又准确的利用生物信息学方法准确,高效的从生物数据中挖掘内在生物特征和规律,成为当前的热门话题。近年来,由于miRNA在生物发育、成长过程中起着重要的调控作用,miRNA的研究得到广泛的关注。各种生物信息学的应用miRNA的研究,包括miRNA预测,靶基因的预测,二级结构的研究等,获得很好的效果。本文通过深入分析已有miRNA的建模方法,总结前人的miRNA的研究的优势和不足上,提出两种miRNA建模方法。一种是利用茎区和环区对miRNA建模,只关心在各个茎区和环区里碱基的个数。另一种是考虑在各个位点上,出现某种特定碱基和结构。本文针对现有的方法对miRNA之间相互作用关系研究不足,提出一种结合二级结构和联合熵的方法来挖掘相互作用miRNA对。通过利用二级结构,保证本文的方法在生物上更加准确。利用RMS来度量miRNA的结构相似性。利用联合熵的方法来找出可能有重要的相互作用的miRNA对。文中最后利用阈值的方法,去掉不重要的相互作用的miRNA对,提高了算法的效率。并通过大量实验验证,本文的方法不仅能够能找到已知的相互作用miRNA,而且可以发现一些未知的但是可能存在重要的相互作用的miRNA,通过和现在流行的序列比对算法对比,表明本文的算法在时间复杂度上更优于现有的算法。本文针对现有算法对成熟体miRNA位点研究的不足,提出一种利用信息熵来分析成熟体miRNA保守位点的方法,包括单碱基信息熵和联合碱基信息熵。信息熵越低,位点更保守,那么该位点可能具有更重要的功能。和传统的方法不同的是,该方法不但考虑了序列信息,而且还考虑结构信息,以此来保证该方法能够充分的反映1niRNA信息。实验结果表明,该方法能够发现已知的保守位点,而且还可以发现新的未知的保守位点。