面向弱监督多标签数据的特征选择方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:tangdeqian1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代使得采集的数据从维度上呈现爆炸式增长,从标签角度呈现多样化走向,因此获取的数据有两个突出特点,即“数据维度高”和“标签不完整”。在机器学习任务中,直接处理高维且不完整标记数据会面临“维度灾难”、“算法失效”等问题,因此面向弱监督多标签数据的特征选择应运而生,成为解决此类问题的有效手段。近年来,弱监督多标签场景下的特征选择因其广泛的应用,引起了越来越多的关注,许多问题亟待解决:(1)面向半监督多标签数据,无法同时“降低不准确预测标签的消极影响”和“有效地评估标签相关性”。现有的特征选择算法仅关注二者之一,无法抽取真实的标签相关性指导特征选择;(2)面向弱标签数据,无法同时“识别缺失标签”和“消除缺失标签对特征选择的消极影响”。现有的特征选择算法处理缺失标签主要有两类:直接将缺失标签假定为负标签从而高估了未观察标签的指导能力;轻率地估算缺失标签值可能会引入标签噪音,两类方法都会误导相关特征的选择。针对现有的特征选择方法在处理弱监督多标签数据存在的以上2点问题,本文在空间一致性理论和概率生成框架基础上,设计并实现了2种高效的特征选择模型。第一,针对现有的特征选择算法在处理半监督多标签数据时,无法“降低不准确预测标签的消极影响”和“有效地评估标签相关性”,本文设计了一种新的基于空间一致性的特征选择模型。该模型利用概率邻居图动态地捕获特征空间的相关性,基于特征-标签空间一致性去优化预测标签空间的相关性信息。在半监督多标签学习场景中,该机制可以较准确地抽取标签相关性去指导特征选择。在真实数据集上,本文方法在多种度量下均取得了很好的选择性能。第二,针对现有的特征选择算法在处理弱标签数据时无法“识别缺失标签”和“消除缺失标签对特征选择的消极影响”,本文设计一种新的概率生成模型。该模型松弛平滑假设去推断标签观察性,进而在特征选择过程中定位并排除未观察标签,同时结合spike-and-slab先验完成稀疏特征选择。通过利用数据放大技术诱导模型完全局部共轭,本文设计了一种简单、高效的期望最大化算法用于模型推断。基于多种评估度量的实验结果验证了本文方法的优越性。
其他文献
拓扑绝缘体和拓扑超导体是当前凝聚态物理研究中发展迅速的领域之一,它们的发现使人们对绝缘体的拓扑能带结构有了新的认知。拓扑绝缘体作为一种新型材料,它具有电子只在其表面传导的显著特性,由于受拓扑保护,缺陷和无序的影响使拓扑绝缘体表面电子不产生散射,这也提供了类似于超导体所具有的鲁棒性,因此拓扑绝缘体在容错量子计算和自旋电子学中具有广泛的应用前景。理论和实验方面的研究共同促进了拓扑绝缘体的发展,而这一领
本文主要由两部分构成:一部分为我国各地资源环境发展指数的编制,另一部分为我国各地资源环境发展指数的分析。本文的资源环境发展指数为人类发展指数(HDI)编制过程中的最新补充,采用单指标体系构建方法编制了我国1990-2016年各省市的资源环境发展指数,主要有根指标的选择,二氧化碳排放总量的确定,阈值的计算和指标的无量纲化四个步骤,在计算二氧化碳排放总量的过程中,不仅仅计算了化石能源燃烧产生的二氧化碳
量子信息学是量子力学和信息科学的交叉学科,由于量子力学在量子通信和量子计算中具有重要作用被广泛研究。基于最优测量基的无偏基是量子信息学中有效的工具,而量子相干性又是量子力学中最基本的性质之一,量子相干性在量子计算以及量子生物学领域中有重要的作用,由此说明探究无偏基的构造、量子相干性的性质及其无偏基在量子相干性中的应用具有重大的意义。为了达到此目的,在无偏基方面,许多学者不仅在无偏基最大个数问题进行
当今社会,能源和环境问题日益突出,发展新型能源储存与转换装置成为亟待解决的问题。电催化反应作为实现这一目的的新型技术手段,越来越得到了人们的重视,如氧还原反应(ORR),析
由于经济发展飞速,现如今社会对能源的需求量日益增多,在如何提高能源运输效率、降低运输成本、保障运输安全方面需求迫切。由于管道运输有着运行稳定、成本低、占地面积小、
作为第一代头孢类抗生素,头孢氨苄是目前世界上消耗量最大的头孢类抗生素之一,在医药工业领域中占有重要的地位。传统的化学法合成头孢氨苄生产步骤复杂,反应时间长,生产中需
图的标号问题是图论中具有实际应用背景的研究课题之一.近年来国内外这方面的研究比较活跃,研究成果被应用于射电天文学、X-射线衍射晶体学、密码学和读取DNA序列等.它的研究
因为自身资源条件限制,在市场竞争中经营发展的波动性比较明显,小微企业内源融资无法满足自身融资活动的需求,所以外源融资是小微企业最主要的资金来源。A银行近几年小微企业信贷业务规模不断提升,不但提升了A银行的综合收益,也是A银行对区域小微企业发展的支持作用更加明显,但是A银行现阶段小微企业信贷风险管理活动开展存在一些问题,小微企业信贷业务的不良率逐渐提升制约了 A银行小微企业信贷业务持续发展的能力。所
离心泵是一种重要的水力机械,在工业、农业等国民经济部门发挥着关键作用。离心泵的内部流动是十分复杂的三维湍流运动,对于早期使用的半经验半计算的离心泵设计方法难以准确描述其内部流动情况,从而导致离心泵性能指标与设计值相差较大,进而使离心泵的运行常常偏离设计工况,最终引起泵的效率和使用寿命的下降。随着计算流体力学的发展,对离心泵进行内部流场数值模拟有助于从更深的层次去了解离心泵的运行原理,通过数值模拟可
ε-己内酯(ε-CL)是一种具有广泛用途的有机合成单体和中间体,由于其优良的生物相容性、降解性和渗药性,近年来在医药、环保及精细化工等领域广泛应用,其市场前景广阔。过氧化氢两步间接氧化法是目前合成ε-己内酯研究的热点,本课题组提出利用复合氧化物催化剂催化过氧化氢氧化乙酸生成过氧乙酸进而氧化环己酮生成ε-己内酯,取得了良好的成效。本论文主要对合成ε-己内酯的两步反应的工艺过程及动力学进行研究,得出较