面向异源数据的机器学习算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ycs19900105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据同源是传统机器学习依赖的基本假设,即训练数据和测试数据服从相同分布。但现实环境中同源数据十分稀缺,有限的同源数据无法训练出有效机器学习模型,这就是同源数据稀缺问题。解决同源数据稀缺问题的一个方法是人工构造同源数据,但这种方法成本过高。解决同源数据稀缺问题的另一个有效方法是整合分布不同的异源数据来进行机器学习模型的训练,因此面向异源数据的机器学习算法十分重要。根据样本空间是否相同,异源数据可以分为同构异源数据和异构异源数据。为了解决同源数据稀缺问题,可以将无标注的样本通过众包方式收集标注。每个参与众包的标注者被视作一个数据源,那么收集到的数据就是同构异源数据。面向这种同构异源数据的机器学习算法称为群智学习算法。根据求得目标分类器的步骤,群智学习算法分为二阶段方法和直接方法。个人分类器方法是群智学习直接方法中的代表方法,该算法拥有凸形式的目标函数但对模型参数分布做了强假设。本文提出一种非参数化的群智学习算法。该算法通过组合优化目标构造出凸形式的目标函数,并且没有对模型参数的分布做任何假设。另一种整合异源数据的方法是其他领域的数据来帮助目标领域的模型训练过程。不同领域的数据的样本空间和分布均不同,因此是异构异源数据。面向这种同构异源数据的机器学习算法称为迁移学习。根据迁移的方式不同迁移学习可以分为基于样本权重、基于特征表示以及基于模型参数三类迁移方法。本文研究并提出一种基于模型的迁移方法和一种基于模型和样本共同迁移的方法。这两种迁移方法均能利用辅助领域的数据改善目标领域的模型效果。
其他文献
自然语言处理是计算机科学领域与人工智能领域中的一个重要的方向,它能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。机器学习是自然语言处理研究的一个分支,而
伴随着网络信息的持续快速发展,Internet环境下Web服务资源越来越丰富,不可避免地会出现大量具有相同功能和不同服务质量的Web服务,如何查找出最适合服务请求者需求的服务已成为
近年来,在非线性动力系统的图形化研究中,各种二维的、三维的对称动力系统的构造、动力学特性的研究以及相应的构图方法等方面的研究成果不断出现。  在二维平面上,关于利用平
智能视频监控是计算机视觉领域中一个涉及多学科的前沿课题,它的发展有着非常重要的科学意义和广阔的应用前景。智能视频监控中运动目标检测和跟踪是最基本的两项核心技术,在
计算机互联网的快速发展和人类社会生活对Internet需求的日益增长,使得网络安全在Internet及各项网络服务和应用进一步发展中占据了关键地位。生物免疫系统是一个高度自治的分
外部设备接入是虚拟现实系统实现交互的前提。对一个需要同时使用多种交互手段进行交互的虚拟环境来说,某个交互设备的接口可能不能与实现该虚拟环境的主机相连,或者当虚拟环境
随着网络技术的迅速发展,计算机支持的协同工作(CSCW)取得了广泛的应用,计算机支持的协同学习(CSCL)是CSCW技术在教育行业的深入应用,已经成为现代教育技术与计算机科学技术跨学科的
随着互联网的快速发展,互联网上的信息量表现出资源动态变化、资源形式多样化、互联网结构复杂化等新的特点,传统的搜索技术显得力不从心,基于对等网络的新一代搜索技术的提出为
汉语文本都是由一个个词语构成的,从而对中文词语的处理是中文信息领域最为基础性的研究课题。随着互联的不断普及和发展,日常生活中不停地涌现出一些词典里面未曾收录的新词
随着配电网络规模的不断扩大,配电网络改革的不断深入,现有的配网研究计算软件的工作量不断增大。随着GIS技术在电力系统中的应用,研究和建立适合于配网实际应用的配网GIS系统对提高配网自动化水平、配网的供电可靠性具有重要的学术和实用意义。本论文在研究配网自动化发展现状的基础上提出基于GIS的配网故障定位系统,通过对配电网拓扑分析和故障定位理论的分析与研究,最终实现了该配网GIS系统的各个功能模块。首先