论文部分内容阅读
作为一种新的数据分析工具,数据挖掘的发展十分迅速。各种类型的数据集都可以作为数据挖掘的对象。面对现今越来越多的数据源和越来越大的数据量,数据挖掘能够有效地从中获取有价值的信息,并可以使人们更好地预测未来可能出现的数据信息,从而提高工作效率。随着挖掘算法研究的日益成熟,对数据挖掘应用的研究自然成为当前的新兴热点。然而当前对数据挖掘应用的研究大部分集中在整体的框架设计及基于新技术的数据挖掘应用上,而几乎没有探讨独立组件的设计方式。本文在对数据挖掘的一般过程及相关算法进行分析的基础上,提出了一种基于J2EE组件技术的通用的数据挖掘系统框架。在此框架各模块对应组件的设计思路上,提出了一种扩展性更好、耦合度更低的设计方式。文中借鉴并扩展了SPSS Clementine中节点的设计形式,并对挖掘过程进行了有效的分解与重组,从而将整个过程良好地节点化。在挖掘流程的表达上,通过使用XML组合若干挖掘节点为节点链的方式有效地降低了系统的耦合性,并在此基础上提出了基于挖掘主题的组织方式。最后,文中还较深入地研究了数据挖掘中经验和知识的复用,并提出了几种逐次过渡的复用方式。