【摘 要】
:
近年来随着信息收集设备技术的进步和普及,现实世界中的数据收集难度大大降低。但是数据半结构化甚至无结构化特点易导致样本的维度达到几万甚至几十万维,需要特征选择等算法来解决所带来的维度灾难问题。然而传统的特征选择方法更倾向于选取具有鉴别性的特征,忽略了数据内在的平衡性,无法得到正确结果。因此在数据挖掘和机器学习中,急需行而有效的算法从原始数据特征集中选择相关的特征。在许多真实的数据挖掘应用中,如无线传
论文部分内容阅读
近年来随着信息收集设备技术的进步和普及,现实世界中的数据收集难度大大降低。但是数据半结构化甚至无结构化特点易导致样本的维度达到几万甚至几十万维,需要特征选择等算法来解决所带来的维度灾难问题。然而传统的特征选择方法更倾向于选取具有鉴别性的特征,忽略了数据内在的平衡性,无法得到正确结果。因此在数据挖掘和机器学习中,急需行而有效的算法从原始数据特征集中选择相关的特征。在许多真实的数据挖掘应用中,如无线传感器网络的能量负载均衡问题,需要把传感器节点合理划分到相应的簇中,否则会导致节点的能耗不均衡,继而导致网络生命周期短。对此,我们需要一个反映均衡分布的聚类结果来表示能耗均衡问题。而且在很多数据中,尤其是高维数据中,由于噪声和冗余特征的存在,这种平衡结构在原始特征空间中并不明显。特别是在无监督学习中,由于缺乏足够的先验知识,更是表现不出其真实的内在数据结构。为了解决以上的问题,本文提出新的平衡无监督特征选择算法。具体贡献如下:首先,本文提出了平衡k均值特征选择算法。该算法在k均值的基础上,引入了平衡正则项,可以选择倾向于产生均衡簇的特征。因此本文的算法所选择的特征不仅具有判别性,还反映了数据的平衡性,且无缝集成平衡聚类和特征选择于统一的框架中。然后本文使用了乘数交替方向法(ADMM)来求解目标函数。实验结果证明,在基准数据上,本文提出的算法在平衡性和精确性上都优于其他主流的特征选择算法。其次,为了进一步提高算法效率,处理数据非簇状分布的问题,本文提出了平衡谱特征选择算法。在这里,本文使用谱聚类的结构代替k均值的结构,谱聚类更适用于均衡分类的问题,而且也能处理非簇状分布的数据,适用了更多的场景。在算法效率上,它的时间复杂度也大大降低了。最后,在基准数据集上进行的实验证明了该方法的有效性和优越性。综上所述,本文的研究属于机器学习中特征选择领域的基础问题研究,通过在无监督特征选择的过程中保留具有平衡性特征来反应出数据内在平衡结构,提出了嵌入式无监督特征选择算法。值得注意的是,本文所提出的算法是基于平衡性的嵌入式无监督特征选择算法,与传统的算法有很大的不同,不仅保证了选出特征子集的精确性,还充分保留了特征子集的平衡性。
其他文献
随着无线通信技术不断进步,近年来,天线逐渐朝着小型化、宽带化以及多天线化等方向发展,超宽带(Ultra-Wide Band,UWB)技术以其高功率高效率的数据速率、低复杂度、低成本和高精度等显著特点被广泛应用于端对端无线通信。然而,UWB系统在信号传输过程中,会遭受由信号反射和衍射从而引起的多径衰落效应。而与UWB相结合的UWB-MIMO无线通信系统不仅解决了单个多输入多输出(Multiple I
存储器是当今集成电路产业中的核心部分,随着半导体行业的迅速发展,人们对存储器的要求也越来越高。传统的闪存类存储器由于尺寸过大,不能满足现如今20nm的集成需求而逐渐被其他新型存储器所替代。其中电阻式随机存取存储器(resistive random access memory,RRAM)被认为是一种有很大发展潜力的新型非易失性存储器。RRAM的集成方式一般是采用集成度最高的十字交叉阵列结构。可是RR
当前基于冯·诺依曼架构的计算系统受到内存、功耗、带宽等方面限制,人们试图开发新的架构方式,以避开这些限制。其中,存内计算由于可在阵列中处理数据,降低了对内存带宽的要求,从而节省了能源,因而被广泛研究。通过阅读文献可以发现,目前SRAM存内计算通常采用两种读取方式。第一种是多行读取,具有并行性高的优点,但由于采用模拟计算可能会导致其读出的数据存在误差,难以满足一些对精度要求较高的应用。另一种方法是单
近年来,为了解决“最后一公里”配送中存在的成本高和效率低的问题,众包物流和无人机配送物流已经成为研究热点。众包式无人机配送系统结合众包物流和无人机配送物流的优势,不仅能够有效地整合无人机资源,使具有无人机配送需求的小型配送站无需购买大量的无人机,而且能够提高配送效率和降低总的配送成本。然而,现存的众包系统一方面未考虑无人机配送任务的特殊性,另一方面普遍采用中央服务器作为众包平台,容易出现单点故障、
自20世纪70年代以来,处理器的研发趋势始终关注如何提高内核中指令的执行效率,而主存储器却主要聚焦于存储容量的增大,忽略了速度的提升。处理器与主存发展趋势的不同,造成了两者之间访存速度难以匹配,直接导致了影响计算机性能的“存储墙”问题。为了试图弥合处理器与主存之间的速度差,计算机架构师们普遍采用在系统中插入多级缓存的层次型存储结构。然而,缓存的容量与主存相比毕竟有限,访存期间一旦出现缓存缺失,就会
随着5G移动通信技术的普及,用于无线体域网的可穿戴天线在医疗、物联网、军事等领域具有广阔的应用前景。可穿戴天线的设计需要综合考虑人体复杂的电磁特征以及特殊的应用环境,为满足应用需求,其不仅需要具有小尺寸、低剖面、易与人体共形等结构特性,同时还要具有强的弯曲鲁棒性能、良好的人体加载性能以及满足天线对人体辐射的健康标准等性能特性。严格的要求增加了可穿戴天线的设计难度,目前大多数可穿戴天线的设计难以实现
作为一种重要的机器学习方法,聚类算法在许多数据分类领域得到了广泛的应用,人们可以利用聚类算法完成数据挖掘、图形模式识别、图像分割等工作,并取得了不错的成绩。然而,由于聚类算法无监督学习的特点,对聚类结果的质量进行评估就成了一项重要的研究内容。与此同时,许多聚类算法必须在开始运行之前设置目标数据集的类簇个数,但是在通常情况下,这个数字往往难以事先获知。围绕上述两个问题,本文从簇间分离度的衡量方法入手
超密集网络(Ultra Dense Network,UDN)中,被赋予计算功能的小基站由于计算能力受限容易过载,从而影响用户服务质量。另一方面,UDN大量部署小基站扩展系统容量的同时也导致了网络的致密化,数量频繁且不必要的小区切换将会产生额外网络能耗。以上存在的两大网络资源管理问题制约UDN的发展,值得深入研究。在移动边缘计算(Mobile Edge Computing,MEC)中,往往以消极的方
在大规模机器通信(massive machine type communication,m MTC)场景中,基站接收到耦合在一起的信号,如何高效准确的从耦合数据中恢复用户的传输数据成为了难题。由于m MTC中潜在的稀疏特性,压缩感知(Compressed Sensing,CS)技术可以用来联合检测上行免调度NOMA系统中的用户数据和活跃性。目前,基于CS的贪婪类算法因其复杂度低、重构精度高等优势,
大规模MIMO(Massive Multiple-input Multiple-output,Massive MIMO)技术在发射器和接收器中使用多天线阵列可以数倍地提高网络连接的容量,增加信号的收发路径和频谱效率。Massive MIMO带来优势的同时也引发了一系列的问题,由于天线数目变多,导致信道增益矩阵的维度变大。因此,对基站端进行信号检测的算法提出了更高的要求,目标是实现低复杂度且高性能的