【摘 要】
:
随着数据采集技术的高速发展,采集到的数据维数激增,需进行维数约简后才能应用于各种后续操作。传统的维数约简方法未考虑到数据集的类不平衡和误分类代价不等的特点,直接将该方
论文部分内容阅读
随着数据采集技术的高速发展,采集到的数据维数激增,需进行维数约简后才能应用于各种后续操作。传统的维数约简方法未考虑到数据集的类不平衡和误分类代价不等的特点,直接将该方法应用到这类数据集中会使约简后的特征子集向分类精确度高的方向收敛,容易丢失对少数类有重要意义特征变量。因此,针对数据集类不平衡和误分类代价不等的特点进行维数约简方法的研究具有重要意义。
本文针对典型复杂工业过程数据集中变量间强相关性、类不平衡、误分类代价不等以及标注代价昂贵的特点,研究了基于代价敏感学习和半监督学习的维数约简方法。主要研究工作如下:
(1)针对数据集类不平衡和误分类代价不等的特点,以特征子集误分类代价最小期望作为维数约简的评价准则,分析推导了该评价准则的鲁棒性和正确性。针对真实数据集的特征变量为连续值的特点,提出了有监督代价敏感维数约简方法,该方法将离散化方法和基于聚类的采样方法引入特征子集误分类代价最小期望的计算中。
(2)针对数据集的有标注样本少,无标注样本多以及标注代价昂贵的特点,将半监督学习方法引入到代价敏感维数约简方法中,提出了基于生成模型的半监督代价敏感维数约简方法(SCSDR),并根据误分类代价最小期望得出了多个特征子集选择的方法。
(3)基于人造数据集上的实验表明,有监督代价敏感维数约简方法在性能指标评价上优于FCBF(fast correlation-based filter)等4种过滤式维数约简方法,证实了方法的有效性,实验结果表明影响该方法时间复杂度最重要的因素是特征变量的维数。基于真实数据集上的实验结果表明,SCSDR得到的特征子集在性能上与S2PPCA等半监督降维方法相当。将SCSDR应用到氧化铝蒸发过程数据集中,得到3个分类精确度高的特征子集。
其他文献
由于毫米波的频率高、可用带宽大,能给系统提供每秒千兆比特的传输速率,因此被视为5G通信的一项关键技术。为了保证足够的链路余量,毫米波系统在收发端需要都采用大规模天线
关于圆极化天线的研究具有悠久的历史,基于圆极化波的诸多特点,故在电子侦察和干扰、雷达的极化分集、卫星导航、通信系统和射频识别系统(RFID)中普遍采用圆极化天线。对于圆
Wireless communications of today is moving from cellular networks towards more distributed,self-configuring networks.Wireless had a huge growth over the passing
近年来在机器人学研究中,多机器人系统成为了最具研究价值的领域。多机器人系统被广泛应用在许多领域,如地图构建、协作搬运、以及体育对抗中。对于单机器人难以完成的任务,多机
近年来,无线通信日新月异的迅猛发展,以及移动终端数目爆发式的增长,使得用户愈发迫切需求数据的高速稳定传输。为了容纳更多的用户,提供更高质量的服务,无线通信对系统的吞
在无线移动Ad hoc网络(MANET)中,节点是可以动的,自动连接并且彼此可以在没有基站的支持下进行通信。通常,这种网络的拓扑结构会随着节点的移动而发生改变,不断地断开和重新
随着无线网络与移动通信和因特网的不断互联,无线通信网络将成为最具发展潜力的技术研究领域。通过移动终端,随时随地的实现全球无缝隙覆盖通信和多媒体数据传输业务,是通信技术
随着信息通信技术(Information Communication Technology,ICT)与产业的飞速发展,通信网络规模不断扩大,导致了能耗过高等严重问题。电量需求的增加提高了通信网络的运营成本
本论文重点对车路协同通信系统的底层协议IEEE802.11p及其信道模型和信道估计算法进行了研究。
论文在简述WAVE/DSRC体系架构的基础上,对车路协同通信系统的底层协议进行
软件接收机技术使得接收机可以建立灵活可变的开放式体系结构,并允许动态选择不同的模块参数,为全球导航卫星系统(GNSS)接收机的研究提供了一种全新的方式。而应用此技术第一