基于属性相关性分类理论的属性选择方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yaocjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门从大量日常业务数据中提取有用信息的新兴学科,20世纪90年代以来发展迅速。日常业务数据可能不完整,含冗余或边界模糊等,应用数据挖掘算法之前一般需要对原始数据进行预处理。属性选择是一种重要的数据预处理方法,可以降低数据集的维度和噪音,使数据挖掘算法效果更好。 本文介绍了数据挖掘开源平台Weka的概况和总体结构,重点分析了其中的属性选择算法的代码组织形式和运行过程;提出了参考分布律的概念,将属性相关性归结为分布律和参考分布律之间的差异性;总结了已有的属性相关性计算方法的缺点,根据相关性的新定义提出了衡量属性相关性大小的α-指数和β-指数,并发现这两个指数的分布呈现出很强的规律性,可以将属性相关性分为4种基本类型;设计了两个属性选择算法,以参考属性和类属性之间相关度的类型作为取舍属性的依据,并利用Naive Bayes分类算法和C4.5决策树算法评价属性选择的结果。实验表明,在大多数的数据集合上,基于属性相关性的分类理论的属性选择算法能够有效地选择属性并保持分类精度基本不变。
其他文献
互联网已经迅速发展成为我们生活、工作和学习中一个不可或缺的重要组成部分。 如何从这个巨大信息海洋中寻找所需的信息资源或定制自己的服务成为人们迫切关心的问题。作
随着Internet和多媒体技术的飞速发展,流媒体视频传输成为网络应用的一大热点,流媒体彻底改变了传统Internet只能表现文字和图片的缺陷,可集音频、视频及图文于一体。近年来,
聚类分析是认识事物的基本途径之一。通过聚类分析,可以更清楚地认识事物的本质特征。目前的各种聚类分析方法中,动态聚类法是最为普遍的一种。本文主要从静态样本和动态样本
国民经济持续快速发展的同时,铁路运能紧张问题也日益突出。编组站作为路网上最重要节点,承担办理货物列车的解体和编组任务,其效率的提高对提升整个路网的运输能力至关重要
P2P网络安全模型的研究是当前研究的热点之一。由于P2P网络分布式、缺乏集中控制的特点,使得P2P网络的安全成为一个突出的问题。因此需要一个分布式的信任机制来增强系统的可
3G(GPS/GIS/GPRS),是空间技术、卫星定位与导航技术和计算机通讯技术相结合,多学科高度集成的对空间信息进行采集、处理、管理、分析、表达、传播和应用的现代信息技术。前两者
在当今的经济、社会生活的各个领域中,互联网的应用正变得越来越广泛。在互联网经济迅猛发展的同时,由网站违规运营造成的问题也呈逐年上升趋势。虽然信息产业部通过ICP/IP地
本论文详细介绍了用于教学的PCI实验卡的设计与开发过程。在本设计中,采用PLX公司的PLX9054作为PCI总线接口芯片,FPGA芯片采用的是Altera公司生产的Cyclone系列EP1C6Q240C8芯
极速学习机是一种用来求解单隐层神经网络的快速学习方法。它只需要设置网络的隐层节点个数,随机生成输入层与隐层之间的权值和隐层的偏置权值,且在算法执行过程中不需要再做
目前,银行业正下处在以客户为中心、以市场为导向的激烈竞争时代,如何应用先进的计算机网络技术跟踪、预测银行客户的发展动向,最大限度地挖掘客户信息的潜在价值,并利用这些信息