论文部分内容阅读
从数据挖掘技术产生以来,国内外出现了形形色色的数据挖掘工具,其中也不乏可以为用户提供算法试验和测试接口的例子,但其目标都倾向于挖掘任务,而非挖掘算法的开发、调试和试验。直到今天,对于数据挖掘领域的算法研究人员来说,实现、测试算法仍然是一项效率较低的工作,于是我们开发了这个数据挖掘集成试验平台DMLab(Data Mining Laboratory),为算法研究人员提供了一个集算法实现、测试、试验等功能于一体的高效的集成开发试验环境,使得他们不再需要花过多的精力在试验系统的设计和编码上,而把精力都投入到对算法本身的实现和研究上。 DMLab是一个专门为数据挖掘研究人员进行算法试验而设计的集成开发环境,融合了数据准备和新算法的实现、调试及评价等功能。系统提供的数据服务器DataServer使得用户通过简便的操作即可实现对数据集的读取、解析、探索和预处理,而且数据集可以重复使用和跨网络使用,大大的提高了数据集准备和使用过程的效率。跟其他挖掘工具相比,DMLab提供了更加高效的二次开发接口,借助于Python的强大功能,DMLab具有其他系统无可比拟的扩展性和简便性,用户可以在短时间内开发实现自己的挖掘算法,实现对挖掘算法或数据的试验;系统集成了算法运行结果的可视化模块和智能化评价模块,使用户评价新算法的过程变得更加客观、简便。 本文首先从DMLab的体系结构、DMLab的模块组成、DMLab的集成方式以及功能特征和实现机制等四个方面介绍了该系统的分层设计模式,模块化、组件化的设计原则,以及系统具有的灵活性和可扩展性。 然后详细讲解了DMLab的设计与原型实现过程,主要介绍了DMLab系统实现过程中的关键技术,比如系统中基本数据结构的定义,包括一些重要的类、全局常数以及其内部关系,系统中的数据通信方式,通信协议,图形用户界面的实现等。 最后对各个部分进行了测试,证明了系统预期的主要功能都已经实现,用户可以利用系统完成对数据集解析、探索及预处理,编辑、调试算法脚本,配置运行试验过程,在系统提供的基础接口上面扩展自己的数据加载