关联规则在生物信息学应用研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:very_god
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的发展,数据挖掘技术为其提供了越来越重要的技术支持,而关联规则挖掘技术是数据挖掘领域中的重要组成部分。但在应用过程中由于生物数据的特点,传统算法需要进一步改进或重新提出新的算法以满足生物信息学的研究要求。 本文首先提出了一种在分布式环境下挖掘项约束多层关联规则的有效算法:基于Apriori算法的MLACD算法。该算法适用于对通信性能要求不高的分布式数据库,能够实现对基因表达谱数据在不同层 次上进行关联规则挖掘。 针对基因表达谱数据每个样本项非常多的特点,本文提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法在处理基因表达谱数据集或行数远小于样本项个数的数据集时具有很高的效率。 本文采用兴趣规则组概念得到关联规则并以关联规则建立分类器,并对基因表达谱数据样本进行了预测实验。首先对基因表达数据集提取特征基因并采用了兴趣规则组的上边界模式做为建立分类器的分类关联规则,在REMFOR算法的基础上提出了算法FEALL,实现了分类预测功能。实验证明,该算法在规则挖掘效率和预测准确率方面获得很好的效果。
其他文献
随着网络技术的快速发展和网络规模的不断扩大,传统的IP网络仅提供“尽力而为”的服务,无法满足多媒体应用和各种用户对网络传输质量的不同要求。在资源共享环境中,一定会有各共
由于空间密度场可用来描述人群的动态运动和分布规律,对密度场导向下的人群仿真研究已成为新的热点。本文从密度场的获取、路径规划和碰撞避免算法等方面,提出了一种基于空间
面对日益增长的海量网页数据和更大规模的用户查询请求,如何保证较高的处理效率是当代搜索引擎面临的严峻挑战,同时也是信息检索系统始终需要解决的核心问题。另一方面,现代处理
随着经济飞速发展,人们已经深刻地认识到公路交通中所蕴含的巨大经济价值和社会价值,世界各国也随之对公路特别是路面质量提出了更高的要求。对路面破损进行科学的检测和评价,成
当前数据中心单一服务器上的数据存储容量能够达到数十亿条键值( KV, Key-Value)对,并且单个键值对通常很小。如何有效地组织超大型键值存储系统使其支持快速访问是一项艰巨的工
随着网络存储技术的发展,SAN(Storage Area Networking)和低端服务器的成本降低,如何管理、优化SAN以及整合与之相连的服务器,将成为企业控制成本、提高效率的关键因素,同时
随着软件规模和复杂度不断增大,传统的软件开发模式面临着巨大的挑战,出现了新一轮的“软件危机”,解决这个问题行之有效的途径就是软件复用。构件技术在软件复用中扮演着重
互联网中的流量由数以万计的不同应用产生,其构成结构会随应用的变化而变化。充分掌握网络总体的流量构成以及各种成分的变化规律对网络管理和网络行为学的研究具有重要意义。
学位
随着全球信息化的飞速发展,计算机网络安全问题日益突出,黑客入侵、信息泄密以及病毒泛滥所带来的危害引起了世界各国的高度重视。网络信息安全已成为亟待解决、影响国家大局