论文部分内容阅读
随着信息技术的不断发展,数据挖掘在企业、政府和科学研究中越来越多地得到广泛应用,一批数据挖掘系统作为商业智能系统的一部分被开发和部署。然而不同系统间数据挖掘结果格式不兼容,管理方式存在差异,无法共享和协同工作。PMML是DMG制定的数据挖掘模型交换标准,在数据挖掘结果表示方面具备完备性和可扩展性,它采用XML格式便于数据交换。研究基于PMML的数据挖掘结果管理技术具有一定的实用价值。
本文以“基于中间件技术的数据挖掘企业应用平台”为背景,研究了引入PMML进行数据挖掘结果管理需要解决的PMML扩展、存储、合并与版本转换以及共享问题。取得的研究成果如下:
1.针对PMML数据挖掘任务表达方面不足的问题,提出数据挖掘执行语言(TEXL)扩展PMML;
2.提出支持多种数据库、统一编程接口的PMML存储方案,并且基于Lucene建立PMML索引,提高查询性能;
3.提出PMML合并和PMML版本转换的方法;
4.提出基于REST Web服务和RSS技术的PMML共享方案,使PMML可以在不同系统之间传输和自动更新。
基于上述研究成果和现有数据挖掘平台的实际情况,本文实现了数据挖掘结果管理中间件,它支持多种运行环境。本文根据该中间件提供的服务与编程接口,开发了原型应用系统来展示中间件的功能。
通过本文的研究表明在数据挖掘结果管理中引入PMML是可行的,并且具有广泛的应用前景。