【摘 要】
:
AUC是衡量分类算法性能的重要指标之一,被广泛应用于类不平衡学习、排序学习、异常检测和代价敏感学习等任务中。在线学习凭借其处理大规模数据和流数据的高效性在机器学习领
论文部分内容阅读
AUC是衡量分类算法性能的重要指标之一,被广泛应用于类不平衡学习、排序学习、异常检测和代价敏感学习等任务中。在线学习凭借其处理大规模数据和流数据的高效性在机器学习领域受到广泛关注。针对大数据环境下的AUC优化问题,研究者提出了诸多在线AUC优化算法。在线AUC优化的难点在于AUC优化的损失函数由来自不同类别的两个样本构成,这使得依赖于损失函数之和的目标函数与训练样本数二次相关,不能直接使用传统在线学习方法求解。当前的在线AUC优化算法聚焦于通过在求解过程中避免直接计算所有的损失函数,从而减少问题规模,实现在线AUC优化,但其复杂度仍然高于同类型的传统在线学习算法。如何能使AUC优化的目标函数不再和训练样本数二次相关,仅和训练样本数线性相关,是一个值得研究的问题。基于最小二乘损失函数,本文提出了一种AUC优化的新目标函数,该目标函数仅与训练样本数线性相关。理论分析表明,最小化该目标函数等价于最小化由L2正则化项和最小二乘损失函数组成的AUC优化的目标函数。基于该目标函数,本文提出了在线AUC优化的线性方法(LOAM)。并根据不同优化求解策略,提出两种算法:一是使用增量式最小二乘法(ILSC)进行优化求解的LOAMILSC算法;另一种是使用AdaGrad方法进行优化求解的LOAMAda算法。其中,LOAMILSC算法的空间复杂度和每次迭代的复杂度与ILSC算法相同,LOAMAda算法的空间复杂度和每次迭代的时间复杂度与传统在线梯度下降算法相同;同时,这两种算法都不需要存储任何历史样本,仅需扫描数据集一遍。实验结果表明,与原有方法相比,LOAMILSC算法获得了更优的AUC性能,而对于实时或高维学习任务,LOAMAda算法则更加高效。
其他文献
网络的路由放置问题在无线Mesh网络中一直是一个重要研究方向。一个高效的mesh路由节点放置方法能有力地保证网络的连通和用户的全覆盖。因为无线mesh网络可以提供价格低廉的
随着互联网技术的快速发展,大规模的分布式系统在各个领域中得以广泛地应用。但是,系统的复杂度也随着系统规模的扩大而增加,这对大规模分布式系统的有效管理提出了更大的挑
机会网络是一种不需要源节点和目的节点之间存在完整路径,利用节点移动带来的相遇机会实现网络通信的移动自组织网络。当前关于机会网络数据转发机制的研究存在一个共同的假设
近些年来,随着嵌入式系统、无线网络通信和数字电路等技术的进步,使得多功能低功耗无线传感器网络得到了快速发展。无线传感器网络有着高度动态的系统行为,以数据为中心和动态自
不改变现存低分辨率成像系统,通过多帧互有位移、信息互补的低分辨率图像或视频序列获取高分辨率图像的超分辨重构技术,一直是图像处理领域中研究热点之一,在刑事侦察、目标
高性能的应用层组播研究已经越来越受到业界的关注,由于拓扑感知应用层组播能够最大限度地使底层物理网络拓扑与组播覆盖网络相匹配,从而获得更好的组播数据转发性能。拓扑感
随着宽带无线技术的快速发展,包含语音、视频、数据等多业务融合越来越成为未来人们对移动通信的需求。以政府、公司、航空、铁路等部门为用户主体的,具有集团指挥调度的宽带
随着互联网技术的飞速发展,文本文档、Web页面在互联网中快速扩充,如何帮助人们更快捷、有效地获取信息,已成为目前搜索引擎领域重要的研究课题之一。鉴于此,聚类搜索引擎应运而
随着因特网的飞速发展,半结构化式的Web数据大量涌现,使得HTML标记语言已经不能满足用户日益增长的需求,XML作为一种自描述的半结构化数据为Web数据管理提供了新的数据模型,
物联网的广泛应用推动了感知技术的发展,同时也促进了作为感知技术核心内容之一的无线传感器网络的研究和发展。随着需求的发展,无线多媒体传感器网络(Wireless Multimedia S