高维数据的近似粒度特征选择和分类方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术的高速发展的背景下,各个应用领域产生了大量非结构化的数据。这些数据给传统机器学习方法来了许多新的挑战,其中之一就是“维数灾难”。高维数据中存在的大量的冗余信息会降低机器学习方法的计算效率,并且通常会影响结论的准确性。为了有效去除高维数据中的冗余信息,本文采用静态绑定框架局部敏感哈希算法描述造高维数据空间中的粒度结构。由于局部敏感哈希算法获得的数据相似关系依赖于给定概率参数而变化,所以相较于粗糙集等传统粒计算方法,本文中得到数据粒度结构是一种近似的数据划分结果。但这种近似粒度结构解决了传统粒计算模型在处理高维数据时需要大量计算时间的问题。在这种近似粒度划分结构的基础上,本文借鉴传统粗糙集依赖度的概念,设计一种基于粗糙集和局部敏感哈希的近似特征选择算法。另外,在很多基于局部敏感哈希算法的相关算法中,为了保证有足够好的效果并且节约计算资源,都会预先生成大量的哈希函数,以便在之后的计算过程中继续使用。本文也采用这种技巧,进一步考虑到经过近似特征选择后数据与已经生成的哈希函数之间存在的特性,采用粗糙集特征选择算法挑选更适用于分类的局部敏感哈希函数,并通过结合新的分桶方法与动态碰撞框架基本思想提出了基于粗糙集与局部敏感哈希的分类算法。实验证明,近似特征选择与分类两种算法对于高维数据的处理具有很好的效果。
其他文献
随着经济全球化的快速发展,如何在激烈的国际竞争中占据主导地位,转变经济发展方式,提高核心竞争力,创新与研发显得尤为重要。因此,如何对企业的创新开发水平进行有效的了解
随着勘探思路从源外断裂带构造成藏向近源斜坡区岩性圈闭大面积成藏的转变,沙湾凹陷西斜坡二叠系岩性油藏是未来的主要勘探领域。该区二叠系上乌尔禾组少井钻遇,已有的层序和
阅读作品是人们学习文化知识最直接的方式。在信息时代,互联网数据资源共享为人类阅读作品提供了前所未有的阅读便利,但视障者因先天的生理功能缺陷无法像其他正常人一样阅读
本文首先定义了Rota-Baxter 3-李超代数,并给出利用Rota-Baxter李超代数和Rota-Baxter Pre-李超代数构造Rota-Baxter 3-李超代数的方法;其次提供了在RotaBaxter 3-李超代数上
自古以来,房屋之于国人意义非凡,既是情感依托,也是生活保障,同时还是投资、保值的重要路径。自2005年以来,伴随着房地产行业的日渐兴盛,房屋价格开始持续上涨,且增长幅度较
我国高考制度迎来新一轮的改革。高考考核方式和试题质量的好坏决定了人才选拔的合理性。他山之石,可以攻玉,英国的CIE考试考生人数众多,分布范围广,有其独特之处,能够为我们
约束面曝光成型一次可完成零件一个层面的制作,从而大幅度提高了成型效率。同时该技术具有材料利用率高、成型精度高以及设备结构简单等特点而成为光固化成型技术的重点发展
数据分析素养已经成为中学六大数学核心素养之一,其重要性不言而喻。随着《大数据产业发展规划》的发布,大数据已经被提升到国家战略层面,具备数据分析素养的人才正是大数据
光频梳是一种基于锁模激光器和频率稳定电路的频率源。它利用微波领域的锁相环原理将脉冲激光频率锁定到高稳定度的频率源上保证光脉冲频率的高稳定度。锁定后的光频梳形成一
我们对涉及分担值的指数多项式唯一性、一般区域上涉及分担值的亚纯函数唯一性等问题进行探究,主要证明了如下几个结论.(1)如果ak(k=1,2,3,4)是判别的有穷复数,(k=1,2,3,4)都