数据约简效果的评价方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fragishsss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展,出现了大量的海量数据。为了降低处理海量数据所消耗的时间和存储海量数据需要的空间,对海量数据进行数据分析前,需要先对其进行数据约简。数据约简效果的好坏直接关系着后续的数据分析的正确与否。因此,探索行之有效的数据约简效果评价方法,对海量数据处理有着重要的理论意义和现实意义。考虑到数据集中实例的变化和特征的变化会影响数据集的分类效果,综合了类半径、类间距和类实例数对分类精度的影响,分别给出了二分类数据集和多分类数据集的新宏观F1值计算公式,提出了一种基于分类的数据约简效果评价方法。该类方法适用于分类明显的数据集。从基于实例选择的数据约简的两个方面:数据编辑和数据压缩入手,分析了数据约简对相似性的影响。通过对数据集间的距离、数据集的分位数和数据集中实例的频数分布等三个统计特征的分析,提出了三种基于相似性的数据约简效果评价方法,分别是基于马氏距离、基于QQPlot图和基于统计直方图的方法。该类方法具有普适性,适用于任何数据集。论述了基于特征选择和基于实例选择的数据约简对约简前后数据集的自相关性产生的影响,分析了度量空间自相关性的Moran’s I统计量,提出了一种基于自相关性的数据约简效果评价方法。该类方法适用于空间自相关性比较高的空间数据集。通过对基于特征选择和基于实例选择的数据约简效果评价方法的研究,取得了若干研究成果,对提高海量数据的处理效率具有积极意义。
其他文献
随着信息技术的飞速发展以及各种数字技术的普及,用户对数据高可靠性、高带宽的要求进一步推动的存储技术的发展。传统磁盘阵列技术在带来高带宽的同时也很好的解决了因磁盘硬
在信息技术飞速发展的今天,企业的信息平台也越来越倚重网络,而Java Web应用系统也逐渐成为企业处理日常业务的中心平台。在Web系统的开发过程中,Web系统的访问控制尤其是Web页
随着半导体制造工艺技术的发展,DRAM与闪存的尺寸已经缩小甚多,但进一步缩小的空间不大,且其存储性能随着密度的提升而受到严重影响。在此背景下,研究开发理想的半导体存储器来解
当前计算机制造工艺的飞速发展以及多核CPU芯片技术的日趋成熟,让我们进入了高速计算的多核时代。同时,在并行计算领域上,也由以往的多机并行慢慢转到多核并行上来,即多核计算的
对图像的识别、理解和处理方法,具有重大的社会应用价值,也是一个极为重要的学术理论热点。识别和理解图像首先需要提取出图像中重要的、人类感兴趣的区域——即图像显著性检
伴随着大数据时代和移动互联网时代的来临,人们之间的交流更加频繁,关系更加紧密,信息匮乏的时代一去不返,信息过载的时代接踵而来。电子商务网站出现"井喷式爆发",人们的购
由于云计算广为接受,越来越多的传统应用转移到云环境中。云服务系统是部署在云中,按照云计算软件即服务的思想对外提供业务服务的大规模在线应用,如阿里巴巴交易网站淘宝网
在过去的几十年间,人脸识别作为人工智能领域中的重要研究课题,得到了广泛的关注和研究。本文研究单样本人脸识别问题,从“构造虚拟样本”入手,针对姿态、光照和表情等可变因素而
信息安全在当前的社会生活中成为人们越来越关心问题,而保证信息安全的核心——加解密技术无疑是当前信息安全领域的研究热点。如何高效快速地实现当前广泛应用的RSA加解密算
生物识别技术能够通过人类身体本身具有的一些生理特性验证身份,具有更好的安全性和便捷性。基于手指的生物特征(例如手指静脉识别、指背纹理识别、指节纹识别等)已受到越来