论文部分内容阅读
近些年来,组学技术发展迅速,产生海量生物数据。数据挖掘技术为从生物数据中发现有价值的信息提供了技术支撑。分类是数据挖掘的关键技术,在生物信息领域常表现为疾病分型、样本预测。如何利用简单、有效的决策规则构建精准的分类模型,从而对生物数据分类预测是生物信息学领域中研究的热点问题之一。在生物系统中,分子之间相互作用,共同完成各项生理活动。本文从特征关联关系入手,研究基于特征关联关系的生物数据分析方法。提出了一种基于特征对有效区域重叠情况的k-OD分类算法,该算法对一对特征在不同类样本的有效区域进行研究,根据特征对有效区域内重叠情况评价特征对的区分能力,筛选有判别能力的特征对构建分类模型。在8个公共数据集上该算法和TSP、VH-TSP和SF算法比较,实验结果表明该算法在大多数数据集优于其它算法。提出了一种基于特征关系集成的k-EC分类算法,该算法融合特征对水平关系、垂直关系、有效区域的重叠情况和单特征的区分能力,使用复杂程度挖掘有区分能力的特征对和单特征,构建相应的分类器。在8个公共数据集上,通过与k-TSP、k-OD、k-SF、VH-k-TSP、SVM和RF算法的比较,表明了k-EC分类算法的有效性,说明从不同角度分析特征关联关系和单特征,可以更精准地分析问题。提出了一种基于特征关联关系的随机森林RF-EC分类算法,该算法在随机森林决策树的生长过程中,保留单特征评价过程,同时融入了特征对的综合评价,考虑样本在特征对水平关系、垂直关系和有效区域的重叠情况。在11个公共数据集的实验上,结果表明RF-EC算法比RF算法有更好的分类性能,说明考察特征对的多种关联关系在分类模型的构建是有效的。本文所提出的三个分类算法都是基于特征关联关系,k-OD是基于特征对有效区域重叠情况分类算法,k-EC和RF-EC算法是基于特征对多种关联关系的综合数据分析方法,其中,k-EC是特征关联关系集成的分类算法,RF-EC算法相当于特征关联关系的级联分类,两种算法各有优劣。实验结果表明基于特征关联关系的生物数据分析方法的有效性。