论文部分内容阅读
随着计算机网络和数据库技术的进一步发展,分布式计算环境的普遍存在促使分布式数据挖掘技术成为当今的一大研究热点。在实际的分布式环境中,数据不仅在物理上是分散的,而且具有背景异质性,现有的分布式数据挖掘技术能够对物理上分散的数据进行处理和分析,却没有解决背景异质性的问题,因而其应用范围受到局限。本文以水平分布式数据的背景异质性为研究对象,通过量化的测试这种背景异质性对具体分类算法,全局错分率和局部错分率的相对变化进行了研究。主要内容包括:
⑴介绍了数据挖掘技术发展历史,国内数据挖掘应用商务智能市场的发展背景和趋势,以及国内外分布式数据挖掘研究现状,课题来源和课题研究内容。
⑵以数据挖掘的定义,过程以及对象为基础,研究了分类学习的两个基本过程,基于交叉验证法建立分类学习器,用错分率评估其准确性能的方法。分布式数据挖掘的发展需求和技术框架,探讨了分布式计算环境中,数据分散存储和水平分布的特点。
⑶通过具体的商业虚拟企业水平分布式数据的特点研究,提出数据源之间的差异为背景异质性的概念;确定研究的对象是水平分布式数据的背景异质性,并根据问题研究对象确定了研究思路和方案,软件系统模型,最终建立问题研究的分析系统。
⑷基于客户购买行为和心脏病诊断两个水平分布式实例数据集必要的预处理,参照交叉验证的方法确立软件系统分析方案,通过分析系统测试,分别对贝叶斯分类学习算法,函数分类学习算法,惰性分类学习算法和基于规则分类学习算法的全局错分率和局部错分率进行对比分析,最后,由此总结出四个数据背景异质性对分类算法影响的规律。