数据编辑的Self-training分类算法研究

被引量 : 0次 | 上传用户:sxsj002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会经济的发展,数据集的规模越来越大,其中只有少量数据有标签,而数据的标注费时且代价高昂。半监督分类算法可以使用少量有标签样本和大量无标签样本进行学习。自训练作为一种经典的半监督学习框架成为了研究的热点,但自训练算法的性能主要依赖于高置信度样本点的选取,在迭代过程中一旦出现噪声样本将会极大程度地影响算法的分类性能,为了处理数据中的噪声或误标记样本,研究人员提出了许多基于数据编辑的半监督分类算法,然而大多数编辑算法大多使用欧式距离计算样本间距离,且时间复杂度均不低于O(n ~2),不适用于大规模高维数据集。综上所述,现有的半监督自训练算法存在两个问题:一是现有的自训练算法在选择高置信度样本点时缺乏对噪声样本的处理且时间复杂度高,二是欧式距离在高维数据集上容易出现维度诅咒,针对这两个问题,本文提出了两个算法。一、提出了快速球簇划分编辑的半监督Self-training算法(EBSA)。EBSA将数据集划分为稳定区域和争议区域,在此基础上提出了球簇划分编辑算法,用来识别稳定区域内的误标记样本点,并对其进行编辑,提升了高置信度样本点选取质量。EBSA在每次迭代中仅需计算样本点与球簇中心的距离,计算量小,速度快。实验结果表明,与对比算法相比,EBSA算法不仅运行速度快且提升了算法性能。二、提出了块估计近邻编辑Self-training算法MDSF。MDSF使用不相似性度量方法计算样本之间的距离,并定义了块估计近邻关系,进而构建块估计近邻图,在此基础上提出了块估计近邻编辑算法对数据进行编辑,提升了高置信度样本的选取质量。因为使用不相似性度量方法,所以在高维数据集上算法性能较好。大量实验结果表明,与同类算法相比,MDSF在高维数据集上性能明显优于对比算法。
其他文献
传统研究结果表明,个体的消费动机源自其对某种产品或服务的需求。但在现实中,许多消费行为不再仅仅基于某种客观需求产生,而是基于自身某种主观需求,例如消费者心理受到伤害、自我认知出现偏差等,此种情况下产生的消费行为是为了弥补心理缺失或者稳定自我,也就是我们所说的补偿性消费。为何会出现心理缺失或者自我认知失衡?在信息时代飞速发展、社交联结日益方便的今天,人们更容易地感受到来自互联网或者现实中他人的排斥,
学位
在人工智能技术的迅速发展和应用的背景下,优化人机关系、提升消费者人机交互体验成为时代重要议题。作为人类特征与智能产品联结程度的体现,拟人化这一概念在人机关系的构成与平衡过程中扮演了重要角色。拟人化指人类将非人类事物人格化,主观赋予其思想、情感以及行为能力。机器人产品的拟人化程度能够影响消费者的使用意愿,拟人化程度得当的机器人产品能够提升消费者信任,促进消费者积极消费行为,而不当的拟人化程度会引来消
学位
随着数字技术不断迭代升级、外部环境不确定性日益凸显,员工工作内容愈来愈复杂。在此背景下,员工工作压力与日俱增,越发容易衍生疲倦、焦虑等负面情绪,难以产生工作繁荣感。诸多研究指出,作为一种积极的心理体验,工作繁荣对促进员工的成长和组织的可持续发展极为重要。既有研究主要聚焦于探讨领导风格以及工作特征等对工作繁荣的影响,未能充分重视组织中重要的人力资源管理系统对员工工作繁荣的影响。高绩效工作系统作为一种
学位
随着互联网与5G技术的高速发展以及我国消费需求的升级,“直播+”经济方兴未艾,在此基础上衍生的直播电商因其即时性、立体性、便捷性等优势迅速走红,成为当下司空见惯的购物形式。较之于以往电商模式中消费者所处的“孤岛”状态,直播电商模式与之最显著的差异就是重新将“人”这一元素纳入在线消费情境,为消费者营造一种真实的、与他人同时购物的“群岛”环境,并为消费者带来身临其境的购物体验。社会临场感作为个体身临其
学位
在经济加快转型时期,国内市场环境发生巨大变化,企业之间的竞争越来越激烈,创新已经成为企业获取竞争优势的关键,也成为经济社会发展的根本动力。现如今,环境的复杂多变对企业创新提出更多要求,传统单一的创新模式存在局限性,双元创新随之应运而生。企业一方面可以通过开发新技术和知识,拓展新市场;另一方面也可以在现有技术的基础上进行改进,巩固已有市场,前者称为探索式创新,后者称为利用式创新。如何促进员工双元创新
学位
随着互联网技术的广泛应用和VUCA时代的到来,企业面临着更多不确定与未知的风险,为了保证组织能够在当前动态与复杂的环境中稳步发展,团队工作形式应运而生,成为引领组织颠覆原有业务模式和价值创造的主导力量。在新的团队工作模式下,企业可以更好的应对突发情况,在出现问题的第一时间通过协调合作,分工解决的方式解决,这为企业高效运作提供了很大的助力。但有人的地方就会有分歧,自古以来人类社会就免不了内部冲突的问
学位
随着数字经济的深化发展,其已然成为引领社会变革和推动经济增长的重要动能。企业作为经济社会最活跃的单元之一,为了抢抓数字经济发展机遇,获取更多绩效红利,经过规划引导和前期准备,逐步开始推进数字化转型,这进一步引发了学界对数字化转型的关注和探索。通过对该领域的文献梳理可得,既有研究主要聚焦于数字化转型对商业模式调适、企业全要素生产率、企业创新绩效等组织层面变量作用机制的探索,但对于数字化转型在人力资源
学位
学位
学位
随着社会的进步与发展,人们对蔬菜、水果等生活必需品的质量越来越重视,需求量也逐渐增大,但由于种种诸如销售环节无标准化、从事蔬菜经营企业对蔬菜质量分级的意识较弱等原因,使蔬菜售卖时品质与价格不能对等,不能做到优质优价。当前,高原夏菜已成为甘肃省的支柱性特色产业,但其依旧采用的是传统的人力分拣或者普通机械分拣装置等方式,这些低效的方式不仅会消耗大量的人力、物力与成本,并且产出的蔬菜质量不能得到保证,从
学位