基于核密度估计的半监督特征选择

来源 :天津大学 | 被引量 : 0次 | 上传用户:virtualboxscdl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据量的迅猛增长以及数据的多样性给机器学习和数据挖掘任务带来了挑战。特征选择作为特征工程中一个重要的模块,其目标是筛选出与任务相关的特征子集,同时剔除掉冗余度高的特征。一方面,特征选择减小算法的计算消耗,提高算法模型的精确度。另一方面,简化后特征模型具有更好的解释性。在许多应用中,获得一条数据很容易,然而获得一条具有完整标签的数据则相对比较难。因此,许多应用的训练数据通常由少量标记数据和大量标记缺失的数据组成。本文关注的半监督特征选择就是针对此类数据进行特征选择。核密度估计作为一种无参密度估计方法,不需要事先假设数据分布。某个样本取值的密度函数值可以看作为其他所有样本对其造成影响的平均值。目前,核密度估计被广泛应用在图像/视频标注,信号处理,网络故障诊断等领域。本文将核密度估计分别应用到基于信息论的特征选择和基于稀疏模型的半监督特征选择中,提出了如下两种基于核密度估计的半监督特征选择算法。(1)基于核密度估计熵的半监督特征选择方法。对于传统的基于信息论的特征选择方法,核密度估计避免了连续数据离散化,从而避免了因离散化造成的信息丢失。本文将基于核密度估计熵的特征选择方法扩展到半监督数据应用场景中。该方法采用前向启发式方法进行特征选择,将互信息作为评价特征子集的衡量标准,将核密度估计中的核函数作为距离度量。根据距离越近则权重越大的原则,利用其它标记数据与未标记数据的关系,计算每个未标记数据属于各个标签类的概率。然后,将核密度估计熵从完整标签场景扩展到标签部分缺失场景。分类实验和多标记学习实验证明了该方法的有效性。(2)基于核密度估计的稀疏半监督特征选择。基于稀疏和图模型的半监督特征选择使用稀疏模型来进行特征选择,使用基于图模型的半监督学习来学习样本的标签概率分布。半监督核密度估计是一种半监督学习方法,其通过贝叶斯定理,扩展了基于核密度估计的后验概率,使得未标记数据与已标记数据统一。通过迭代优化求解后验概率,即数据的标签概率分布。我们将半监督核密度估计的学习思想应用到基于稀疏模型的半监督特征选择中。实验证明相比基于稀疏和图模型的半监督特征选择该方法有良好的性能。
其他文献
本论文主要研究新型的无配体钯催化邻氯(杂)芳香酸与环状碘鎓盐的串联反应,主要从以下三个方面论述:第一部分论述了三亚苯的应用以及三亚苯的合成方法。多环芳烃(PAHs),被视
我国的经济状况正在处于转变经济的发展方式、优化经济结构、转换增长动力的关键时期。将怎样推动我国的发展结构由要素禀赋驱动转向创新要素驱动,实现我国的规模与速度型转变质量及效益型,实现成本优势、价格优势转为产品技术、产品标准、产品品牌、产品质量等一系列全面综合的优势,进而实现我国产品的质量与变革,同时这也成为政策制定者和学术界共同关心的重大课题。基于海关、测算出的2000-2007年中国生产分割阶段数
完形填空在各类考试中被广泛使用,其能客观地反映学生的综合英语语言运用能力。对于上海高考英语而言,完形填空难度大,易失分,因而完形填空教学也是多年来学者和一线教师关注的重点。迄今为止,国内外将衔接应用于完形填空教学的研究不少,且研究已然表明应用衔接进行解题对学生完形填空成绩有积极影响。然而,作为衔接手段的一种,从副词性关联词语的角度切入进行完形填空的应用研究并不多。前人研究已经表明,副词性关联词语能
在目前手势图像分割与识别的研究中,基于RGB图像的手势分割方法容易受到图像复杂背景的影响,不能有效地对手势区域进行分割。此外,由于RGB图像缺乏手势的三维特征,基于RGB图
为响应国家交通强国战略,我国的交通设施不断完善,各类交通工具不断提速,同时也增加了交通事故的发生率和事故的严重程度。根据统计和执法部门显示,单一或连环形态的汽车追尾
资本品主要包括机械设备及工业用运输设备,全球大多数资本品生产集中在少数研发密集型国家,发展中国家可以通过进口资本品享受国外先进技术外溢。我国作为资本品进口大国,资本品进口额增长迅速,但资本品进口结构不合理等问题依然突出。近年来,学者们将融资约束纳入企业异质性模型与国际贸易联系起来,特别是融资约束对出口贸易的影响成为研究热点。考虑到我国工业企业普遍面临“融资难、融资贵”等较高融资约束问题,本文将视角
近年来,随着经济和科技的高速发展,企业的融资需求不断上升,融资机构发展态势迅猛。与此同时,作为第三方的担保机构,也迅速发展起来。日前,担保行业已颇具实力,前景一片光明
随着电子产业和电子信息技术的超高速发展,传统电容器材料面临着巨大的挑战,而具有高介电常数、低介电损耗的介电聚合物纳米材料复合材料在微电子领域引起了广泛的关注,例如:
区块链的可扩展性已经成为区块链技术发展中的关键瓶颈,其核心问题是如何提高系统的交易吞吐量和交易的确认速度。比特币作为区块链技术应用的代表,在最理想情况下每秒平均最
我国常规的地面气象参数是指不包括太阳辐射的干球温度、露点温度、大气压、相对湿度、风速风向等,气象参数对指导地区的建筑设计及能耗模拟评估起着基础、直接的作用。若要