基于PMML的数据挖掘结果管理中间件的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:william__2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数据挖掘在企业、政府和科学研究中越来越多地得到广泛应用,一批数据挖掘系统作为商业智能系统的一部分被开发和部署。然而不同系统间数据挖掘结果格式不兼容,管理方式存在差异,无法共享和协同工作。PMML是DMG制定的数据挖掘模型交换标准,在数据挖掘结果表示方面具备完备性和可扩展性,它采用XML格式便于数据交换。研究基于PMML的数据挖掘结果管理技术具有一定的实用价值。 本文以“基于中间件技术的数据挖掘企业应用平台”为背景,研究了引入PMML进行数据挖掘结果管理需要解决的PMML扩展、存储、合并与版本转换以及共享问题。取得的研究成果如下: 1.针对PMML数据挖掘任务表达方面不足的问题,提出数据挖掘执行语言(TEXL)扩展PMML; 2.提出支持多种数据库、统一编程接口的PMML存储方案,并且基于Lucene建立PMML索引,提高查询性能; 3.提出PMML合并和PMML版本转换的方法; 4.提出基于REST Web服务和RSS技术的PMML共享方案,使PMML可以在不同系统之间传输和自动更新。 基于上述研究成果和现有数据挖掘平台的实际情况,本文实现了数据挖掘结果管理中间件,它支持多种运行环境。本文根据该中间件提供的服务与编程接口,开发了原型应用系统来展示中间件的功能。 通过本文的研究表明在数据挖掘结果管理中引入PMML是可行的,并且具有广泛的应用前景。
其他文献
随着制造企业的不断发展,其产品信息也日趋复杂,在产品整个生命周期内,对其进行一致的表示和描述是制造企业实现产品知识共享的关键;另外,RFID自动识别技术能够实时获取产品
本论文针对基于AVS标准的车载移动电视系统这个领域做了大量研究和实践。以车载移动电视的快速普及、AVS标准的产业化、流媒体技术应用丁移动通信网络平台为课题背景,提出了基
堆溢出是指写到堆内存块的数据大于其内存容量导致超越边界,从而覆盖相邻内存块内容的一种情形。堆溢出破坏数据的完整性,导致程序运行失败、系统当机,甚至利用它改变程序执行流
端到端丢包率是基本的网络性能测度。因为受到网络规模、应用行为等多方面因素的影响,丢包特征的测量和估算一直以来都最具挑战性和最难以测量的网络性能参数。本论文从实测
随着软件产品规模的日益扩大、软件复杂性的不断提高,软件危机的出现让软件开发与软件维护变得越来越困难,软件工程正是为了解决软件危机而出现的一门学科,它在软件开发与维
信息隐藏是进行产品版权保护的一种手段。随着数字化和网络化的飞速发展,信息隐藏技术成为当前信息科学领域研究的热点。数字水印技术是信息隐藏技术的一个主要分支,该技术将
土地覆盖变化是全球变化研究中的一个重要内容,而土地覆盖分类又是研究土地覆盖变化的重要前提。全极化SAR(Synthetic Aperture Radar)数据包含目标较完备的物理性质和结构信
AVS标准是《信息技术先进音视频编码》系列标准的简称,是我国具备自主知识产权的第二代信源编码标准。AVS-M是AVS的第七部分,主要目标是满足无线移动网络、IP网络中视频通信业
无线传感器网络是由大量的价格低廉的传感器节点组成,这些传感器节点组织形成多跳无线网络,协作地完成大规模传感任务。作为一种新型的网络和计算技术,它可以将客观世界中不断变