基于相关性和冗余性分析的特征选择算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:mgy1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科技的高速发展,获取数据的技术越来越多,使得数据量呈现了一种爆炸性的增长。而伴随数据量增大的同时,数据中包含的噪音和无关信息也增多。面对这种现象,数据挖掘技术占据着越来越重要的地位。它能从海量数据中挖掘出有价值的东西,使得对数据的分析和解释更简便易懂。特征选择是数据挖掘过程中的一个重要组成部分,也是近年来数据挖掘领域的研究热点。特征选择方法能有效地删除噪音,降低冗余性,提高分类性能等。遗传算法(GeneticAlgorithm,GA)是一种典型的封装式特征选择方法,由于它突出的对问题的求解能力,受到了大量的关注。  本文通过对特征与类标之间相关性和特征与特征之间冗余性的分析,提出了一种基于特征组和GA结合的特征选择方法FS-FGGA。该方法利用对称不确定性分析相关性和冗余性,之后通过近似马尔科夫毯规则对相关特征进行分组,最后在特征组的基础上用遗传算法进行优化搜索。另一主要工作是提出了一种基于动态相关性分析的前向特征选择方法DRFFS。该方法是一种filter和wrapper混合的算法,首先通过多filter算法分数融合的方式来衡量特征与类标间的总体相关性;之后在分数融合的基础上,结合候选特征与已选子集的冗余性动态地改变候选属性的互补性,并运用基于排序的前向搜索策略选择最终的特征子集。通过特征组和遗传算法结合的方式,加速了问题求解的速度,并提高了解空间的质量。8组公共数据集的测试结果表明,FS-FGGA算法的分类准确率在大部分情况下高于SVM-RFE和ECBGS特征选择算法。基于动态相关性分析的前向特征选择方法不仅能选择与类标有高相关度的特征,而且能有效地降低特征子集中的冗余性。在6组公共数据上的测试结果证明,在大多数情况下,DRFFS不仅取得了最优分类准确率,而且同时提高了敏感度和特异度。
其他文献
人脸面部表情识别技术目前主要的应用领域包括人机交互、安全、机器人制造、医疗、通信和汽车领域等。人脸表情识别技术是涉及数字图像处理、运动跟踪、情感计算、模式识别、
网状连接(mesh)的超大规模集成电路(VLSI)阵列是一种应用广泛的高性能多核处理器体系结构,但随着VLSI的集成密度的不断提高,多核处理器芯片在生产和制造过程中很难保证不出现功能瑕
随着计算机技术和互联网技术的发展,越来越多的用户正在使用P2P软件进行资源下载、视频观看、信息共享等等。P2P系统用户量快速增长,已成为当前网络最重要的应用之一。但是,P
云计算和物联网时代的到来带来人们极大的便利与快捷,但其安全性威胁日益突出。云计算和物联网的安全问题的重要性呈现逐步上升趋势,业已成为制约云计算与物联网快速发展的一个
纹理是自然界中普遍存在的一种物质表面特征,是组成物体表面外观属性的重要元素。真实世界中的纹理包含了丰富的自然场景信息。三维表面纹理作为自然界中普遍存在的纹理类型,其
近年来,多状态网络的可靠性研究成为可靠性研究领域的热点。本文引入具有隐式表达、易操作等特点的决策图技术,对更接近现实的多状态流网络可靠性进行了研究。主要研究内容及研
智能agent协商是人工智能领域重点研究问题之一,这一问题要求agent具有良好的学习能力和推理能力。回答集程序设计(Answer Set Programming, ASP)是具有非单调推理及缺省推理
随着云计算技术的发展和日益普及,在许多应用场景中需要将数据提交给“云端”,以便充分利用其强大的数据处理能力。然而在传统的模式下,需要用户以明文的方式提交数据,从而给
本文围绕3G以后通信领域的主流技术,重点研究了MIMO(多输入与多输出)-OFDM(正交频分复用)无线通信系统中的关键性技术之一——信道估计技术。由于MIMO-OFDM无线通信系统特殊
本论文利用当今先进的物联网、云计算等先进技术,设计搭建一套完整的市政基础设施智能化管理平台,通过完善园区智能化体系,对数字市政平台进行初步设计。平台可为区域内企业提供