【摘 要】
:
目前,数据挖掘技术在得到了广泛应用的同时也面临着较大的挑战。首先,不同的厂商对数据挖掘模型有着不同的定义,妨碍了挖掘模型在不同的数据挖掘系统之间的共享;其次,大量数
论文部分内容阅读
目前,数据挖掘技术在得到了广泛应用的同时也面临着较大的挑战。首先,不同的厂商对数据挖掘模型有着不同的定义,妨碍了挖掘模型在不同的数据挖掘系统之间的共享;其次,大量数据源分布在不同的地理位置上,数据集中的成本较高;再者,大部分数据挖掘任务需要对各种工具加以综合利用。因此,人们期望能够在一个开放式环境下实现对数据挖掘模型和挖掘组件的集成和重用。本文提出了一个基于Web服务和PMML(Predictive Model Markup Language,预测模型标记语言)的数据挖掘系统架构。它能够与现有的挖掘系统或挖掘组件较好地集成,方便地进行模型交换和模型部署,具有平台无关、语言无关、可移植和可动态扩展等优点。本文首先对当前三种主要的数据挖掘语言进行了分析和讨论,并详细研究了预测模型标记预言PMML3.0规范及其应用。其次介绍了数据挖掘相关知识,研究了Web服务技术及其在数据挖掘系统中的作用。接着,本文给出了一个以Web服务为平台,PMML为模型描述语言的数据挖掘系统的基本架构。该架构可以轻松地实现系统集成和模型共享。最后给出了一个B/S架构的基于Web服务和PMML的数据挖掘系统原型的实现。本文还着重设计并实现了一个PMML的导入导出模块,沟通了挖掘信息和挖掘模型。导入模块能够读入PMML格式的数据挖掘模型,获取数据挖掘所需的模型相关信息;导出模块则相反地读取数据挖掘模型相关信息,输出PMML文档。在该模块的设计过程中运用了模块化的思想,使得该模块具有弱耦合性和独立性;在实现过程中,采用了基于.NET平台中的XML序列化技术,贯彻了面向对象的思想。
其他文献
网格计算作为下一代Internet的一种计算模式,其核心任务是管理分布在Internet广域环境中的各种类型的软硬件资源,为基于Internet的分布式应用提供一个统一的、虚拟的共享资源
计算机流程管理技术已广泛应用于多个领域,随着Internet技术的发展及面向服务思想的兴起,流程的使用人群更加广泛,其个性化服务需求迅猛增长,传统的流程模式遇到了新的挑战。
近年来,随着Internet的大规模普及和企业信息化程度的不断提高,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。快速高质量的文本聚类技术可以将大量文本信息
随着多媒体和Interact的迅速发展,对数字产品的保护和信息安全的迫切需要使得数字水印技术成为多媒体信息安全研究领域的一个热点问题。基于小波的多媒体水印算法近年来受到人
三维点云数据在影视游戏、逆向工程及文物保护与展示等各个行业的应用越来越广泛。囿于外界不可控变量、设备物理误差等因素,由测量设备得到的原始点云数据不可避免的带有许
在永恒发展的现实世界中,时间是信息的一个重要属性,大量数据都要在一定的时间背景下解释才有意义。随着计算机应用技术的深入和发展,人们对时态信息处理的需求也越来越迫切,时态
隐私保护数据挖掘近年来已成为数据挖掘领域一个活跃的研究方向,其研究主要有两方面的目标:一方面是为防止隐私信息的泄露提供有利的技术保障,消除信息拥有者在信息共享时的顾虑
随着网络技术和多媒体技术的飞速发展,网络视频监控已广泛应用于军事、交通、公安、银行、小区、仓库、远程支援和远程教学等领域。近年来,控制技术、通信技术以及微处理器性能
原型系统在软件开发中占据着非常重要的地位,在软件开发的分析阶段开发原型系统是一个用来消除客户和软件开发者之间的理解误差和验证客户需求的有效方法。如果能够根据系统需
随着Internet的深入应用,企业及政府中的重要应用系统被入侵的危险越来越大,信息安全成为日益关注的重要问题。基于静态系统观点的传统安全策略(例如防火墙,访问控制,加密等)无法