数据挖掘试验平台DMLab的设计与原型实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:seasonlao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从数据挖掘技术产生以来,国内外出现了形形色色的数据挖掘工具,其中也不乏可以为用户提供算法试验和测试接口的例子,但其目标都倾向于挖掘任务,而非挖掘算法的开发、调试和试验。直到今天,对于数据挖掘领域的算法研究人员来说,实现、测试算法仍然是一项效率较低的工作,于是我们开发了这个数据挖掘集成试验平台DMLab(Data Mining Laboratory),为算法研究人员提供了一个集算法实现、测试、试验等功能于一体的高效的集成开发试验环境,使得他们不再需要花过多的精力在试验系统的设计和编码上,而把精力都投入到对算法本身的实现和研究上。 DMLab是一个专门为数据挖掘研究人员进行算法试验而设计的集成开发环境,融合了数据准备和新算法的实现、调试及评价等功能。系统提供的数据服务器DataServer使得用户通过简便的操作即可实现对数据集的读取、解析、探索和预处理,而且数据集可以重复使用和跨网络使用,大大的提高了数据集准备和使用过程的效率。跟其他挖掘工具相比,DMLab提供了更加高效的二次开发接口,借助于Python的强大功能,DMLab具有其他系统无可比拟的扩展性和简便性,用户可以在短时间内开发实现自己的挖掘算法,实现对挖掘算法或数据的试验;系统集成了算法运行结果的可视化模块和智能化评价模块,使用户评价新算法的过程变得更加客观、简便。 本文首先从DMLab的体系结构、DMLab的模块组成、DMLab的集成方式以及功能特征和实现机制等四个方面介绍了该系统的分层设计模式,模块化、组件化的设计原则,以及系统具有的灵活性和可扩展性。 然后详细讲解了DMLab的设计与原型实现过程,主要介绍了DMLab系统实现过程中的关键技术,比如系统中基本数据结构的定义,包括一些重要的类、全局常数以及其内部关系,系统中的数据通信方式,通信协议,图形用户界面的实现等。 最后对各个部分进行了测试,证明了系统预期的主要功能都已经实现,用户可以利用系统完成对数据集解析、探索及预处理,编辑、调试算法脚本,配置运行试验过程,在系统提供的基础接口上面扩展自己的数据加载
其他文献
二维条码相比传统的一维条码具有高密度、可纠错、可表示多种文字信息、可表示图像、可引入加密机制等优点,成为现代物流环节中不可或缺的关键技术之一。 本课题主要研究二
生物特征识别技术作为一门新兴的身份鉴别技术,近年来得到了蓬勃的发展。掌纹作为生物特征的一种,具有数据量大、唯一性强、易采集的优点,在各个领域均有广泛的应用前景。本文面
油液监测技术是近年来工业界普遍采用的监测与诊断设备的技术之一,它是通过分析被监测机器的在用润滑剂(或工作介质)的性能变化和携带的磨粒的情况,以获得机器的润滑和磨粒状
语义Web技术的兴起,为Agents理解信息内容和实现语义互操作扫清了障碍,进而给异质Agents在Web上的大规模应用开拓了契机。然而传统软件Agent技术在Web中的应用潜力严重受阻,原因
上世纪90年代至今,随着互联网的飞速发展,Web上的各种资源正在以爆炸式的速度膨胀。面对汪洋的Web信息资源,如何从中高效的精确的检索信息,也成了当前迫切需要解决的课题。 以
如今,在计算机真实感图形学领域中,三维模型表面的高质量细节特征越来越重要。以往模型表面的细节特征都是将二维纹理,凹凸映射和位移映射等技术应用于三角网格模型或细分曲
机器翻译至今已有60年的历史。尽管机器翻译软件已实现商品化,但其译文尚未达到忠实通顺的现代翻译标准,难以满足世界巨大的英汉互译市场需要。目前英汉机器翻译技术遭遇瓶颈,其
网络诱骗系统是一种主动的安全防御技术,与传统的Internet安全防御技术如防火墙、入侵检测系统以及各种认证和加密技术等不同,它通过在网络中设置一些专门的资源(即“诱饵”)主
多标记问题在现实世界的大量应用中普遍存在,现在已经成为机器学习和数据挖掘两个相关领域的研究热点。多标记学习的提出为多义性对象的复杂化问题提供了一种有效的解决方法,目
随着空间技术的发展,现代小卫星技术正在日益走向成熟,必将会发挥出越来越大的作用。卫星组网为小卫星开辟了新的应用方向和发展空间。本文从动力学的角度出发,对卫星组网进