论文部分内容阅读
随着生物信息学的发展,数据挖掘技术为其提供了越来越重要的技术支持,而关联规则挖掘技术是数据挖掘领域中的重要组成部分。但在应用过程中由于生物数据的特点,传统算法需要进一步改进或重新提出新的算法以满足生物信息学的研究要求。
本文首先提出了一种在分布式环境下挖掘项约束多层关联规则的有效算法:基于Apriori算法的MLACD算法。该算法适用于对通信性能要求不高的分布式数据库,能够实现对基因表达谱数据在不同层 次上进行关联规则挖掘。
针对基因表达谱数据每个样本项非常多的特点,本文提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法在处理基因表达谱数据集或行数远小于样本项个数的数据集时具有很高的效率。
本文采用兴趣规则组概念得到关联规则并以关联规则建立分类器,并对基因表达谱数据样本进行了预测实验。首先对基因表达数据集提取特征基因并采用了兴趣规则组的上边界模式做为建立分类器的分类关联规则,在REMFOR算法的基础上提出了算法FEALL,实现了分类预测功能。实验证明,该算法在规则挖掘效率和预测准确率方面获得很好的效果。