基于数据分布特征的主动学习算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dawancha2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习研究的不断深入,学习算法所能处理的数据规模越来越庞大。然而,对数据进行标注一般仍需要人工完成,所消耗的成本日益成为限制机器学习发展的瓶颈。主动学习通过让机器主动地挑选学习样本,能够避免对冗余数据进行标注,极大地降低标签成本。  传统的主动学习方法在挑选无标签样本时,只考虑样本对当前已学得的模型的信息量,而没有考虑了数据集的整体分布特征,存在一些明显的不足:  (1)主动挑选出来的数据集中仍存在较多冗余样本;  (2)主动学习容易陷入局部最优解;  (3)传统主动学习方法对信息利用不够充分。  为了克服这些不足,本文针对主动学习支持向量机研究了以下内容:  (1)研究了一种基于半监督聚类的主动学习支持向量机。选择引擎在挑选样本时不再以当前模型作为唯一依据。选择引擎首先将特定区域内的样本聚成两个样本簇,然后选择两个簇交界处附近的样本。根据聚类假设,这样的样本有较大的概率成为最终模型的支持向量。实验结果表明,这种改进的样本选择方法有效降低了主动学习挑选出来的样本集的冗余性。  (2)研究了一种新的主动学习停止标准。该方法同样以聚类假设的思想为基础,认为主动学习应该在分类超平面落在特征空间的稀疏区域时停止。为了判断分类面是否落在稀疏区域,提出了一种基于随机搜索的正则化图分割算法。正则化图分割(Normalized Graph Cut,缩写Ncut)是实现低密度分割思想的代表性方法。如果SVM的分类结果与 Ncut得到的结果非常相似,则表明当前 SVM模型的分类面已落在稀疏区域,主动学习可以停止。实验结果表明,这种新的停止标准在标签成本与模型泛化能力之间取得了较好的平衡。  (3)研究了一种基于特征选择的主动学习方法。该方法在主动学习的早期阶段只使用少数主要特征来描述整个数据集,从而使主动学习得到的模型能够迅速抓住数据集的整体分布特征,降低陷入差的局部最优解的可能性。随着主动学习的进行,有标签样本数量逐渐增大,再逐渐增加数据集的细节特征,以进一步提高模型精度。实验结果表明,这种逐步添加特征的方法同时提高了主动学习的效率和鲁棒性。  (4)研究了一种基于子空间投影的主动学习方法。除了使用有标签数据集训练分类模型,该方法还从有标签样本集中学习得到一个投影变换。该投影变换能够使数据集中属于不同类别的样本近似处于原始空间的不同的正交子空间中,从而更容易分类,间接提高模型精度。投影矩阵通过凹凸过程求解。实验结果表明,子空间投影能够有效地提高分类模型的精度,尤其是在主动学习的早期阶段。
其他文献
在21世纪的今天,工业的专业化规模化发展日益成熟,手工业也随着科技的迅猛发展,慢慢被机械化自动化的工业设备所取代。而目前市面上的自动化仿真花制造设备十分稀少,且自动化程度很低,都是半自动化,安全性低,各个设备之间的连贯性低,故障率高,这些缺点导致了自动化仿真花制造设备的市场占有率很低,这与企业主对全自动设备的急切需求呈反比。本课题设计了一种仿真香皂花自动化生产线控制系统,完成了以PLC为核心的控制
学位
学位
本文应用这一技术,设计并实现了基于GSM短消息业务的地下水文监测系统。 本课题来源于西安市水务局。通过对项目需求及功能的分析,确定了系统方案,并依据总体设计要求完成了
调查表明,社会老龄化是全球面临的一个重要问题。伴随老年人人口的不断增长,与之相对应的老年人看护问题亟需解决。近些年,机器人技术的快速发展,使得越来越多的服务机器人开始走
在能源消耗日益增长、环境污染日渐严重的今天,研究可替代化石能源的新型绿色可再生能源,是解决能源危机的必由之路。风力发电是目前众多绿色可再生能源中最成熟、潜力最大的新型能源之一。因为电能的储存问题,现如今投入实际运行的大中型风力发电机组都采取并网运行方式,而且并网发电可以实现规模化经济效益,但由于风能的随机性、间歇性与多变性等因素,风电并网往往对电网造成冲击,也影响电网的电能质量。这限制了大规模风力
运动控制系统被广泛的应用在数控机床、航空航天、国防现代化等高技术领域中,以各种电机为执行部件的运动控制系统的研究开发与产品化工作十分活跃。因此,研制功能多样、开放
近些年来,随着系统设计复杂性的提高,各种系统错误在实际应用中层出不穷,其造成严重后果的事件也逐年增多。系统建模是如今众多系统设计所必不可少的一个环节,同时作为整个系
我国汽车检测行业经过二十多年的不懈努力,无论从检测技术、检测设备还是从检测标准等各方面都已经得到了长足的发展。目前,汽车检测行业的研究重点还是主要集中在检测技术和检
学位
蚁群算法(ant colony algorithm简称ACA)是最近几年才提出来的一种新型的模拟进化算法,它来源于对真实蚂蚁群体寻找从巢穴到食物源最短路径方法的模拟,体现了真实蚁群的协作