面向LTR的GBRT优化及其并行化

来源 :南京大学 | 被引量 : 0次 | 上传用户:gongshurong20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,近年来网络上的文档数据量呈几何级数增长。快速增长的网络信息量带来了高效检索信息的需求。搜索引擎在网络信息检索任务中扮演了重要角色。学习排序(Learning to Rank,以下简称LTR),作为搜索引擎相关应用背后的重要技术支撑,主要解决对搜索结果的相关性进行排序的问题。搜索结果的排序结果对检索的性能和体验影响很大,因此LTR技术获得了众多了关注,取得了长足的发展,各种相关的算法也层出不穷。然而,随着数据量的进一步大幅度增大,近年来,在关注算法精度的同时,越来越多的研究人员开始关注LTR训练算法的效率问题。GBRT(Gradient Boosting Regression Tree),作为LTR领域最重要的算法之一,同样也面临着大数据时代的挑战。GBRT训练具有顺序性、并行粒度低等特点,导致在数据规模增大时其训练效率的问题越来越突出。2013年,百度甚至将“GBDT的并行化训练研究”1作为百度最有价值的研究课题之一向学术界公开征集解决方案2,本文研究内容即为课题组成功申请的百度GBRT并行化训练课题基础上的研究工作。基于上述背景和所申请的百度课题,本文以不降低算法的精度、提升算法的训练速度为目标对GBRT的训练并行化展开了研究。本文的研究工作主要包括训练算法优化和算法并行化两大部分。第一部分,在算法优化上,本文提出了基于K-Means直方图近似的并行化训练算法KH-GBRT以加速训练过程。Gradient Boosting框架具有本质上的顺序性,难以并行化,且GBRT算法训练最耗时的部分是在单棵回归树的训练过程,因此本文并行化的关注点主要在单棵回归树的训练上。首先,我们提出了基于K-Means直方图的近似构造算法并把它和回归树算法相结合降低了回归树训练过程中分裂点寻优过程的时间复杂度,并提高了寻优过程的并行粒度,加速了训练过程;进一步地,为了避免K-Means直方图近似算法带来的精度损失,本文将核函数密度估计和K-Means直方图算法相结合,提出了一套基于K-Means直方图的核函数概率密度估计算法,该算法提高了 K-Means直方图密度估计的准确性,并间接提升了训练精度。第二部分,在并行化方案上,我们分别针对MPI和适合迭代计算的大数据处理框架Spark的特点提出了两套并行化方案。MPI具有接口灵活,运行效率高优点;而Spark具有高容错性,可编程性好,代码移植简单的优点,它们根据不同的需求有不同的应该场景。我们在LTR的公开评测数据集和百度内部大规模数据集上进行了一系列实验,以评估本文并行化优化算法的效果。结果显示,本文提出的基于MPI并行化的KH-GBRT算法和先前文献中已有的最快的大规模分布式GBRT算法相比,取得了 1.49-1.54倍的加速,同时精度上也有所提升;在可扩展性上,也取得了近乎线性的可扩展性效果。同时和中文搜索引擎百度使用的GBRT算法相比,本文并行算法获得了 1.6-2.13倍的加速和更好的训练精度。而基于Spark并行化的KH-GBRT算法,虽然训练速度上和MPI版本相比稍逊一些,但其在容错性和可编程性上更胜一筹,并且在实验中显示了准线性、甚至超线性的可扩展性效果。
其他文献
秋季是山桂园一年中最繁忙的季节,这个时期山楂树的管理对于山楂树的产量互关重要。根据山楂树自身的生长特点,对山楂固在秋季的管理分为三个阶段(8月、9月和10月),并对各个阶段的
随着新课程理念的深入人心,生本思想日益在教学中凸显出来。大家逐渐认识到课程建构的主导,不是学科知识的给予,而是学生能力的发展;不是学会什么,而是学会如何学习。在这个过程中,学生的主动探索无疑是至关重要的。如何能让学生积极主动地去探索呢?从生活中来,到生活中去,使自己的教学能够基于学生的生活经验,从学生熟悉的见闻入手,让地理教学与其相结合,无疑是一条重要的途径。在教学过程中,我有意做了以下几个方面的
后进生作为学校教育中的一个特殊群体,越来越受到教育工作者的关注,加强后进生的教育管理,是建立社会主义和谐社会的大背景下,促进公平教育、和谐教育的需要。本文针对农村初中“
在数学教学中,表扬与批评是我们经常运用的激励手段。但表扬与批评是一门艺术,只有运用得当才会收到应有的效果。在实际教学中,我们必须因人因时制宜,灵活运用。让它真正成为学生进步的催化剂。  一、关于表扬与批评的实验研究  国内外有许多关于表扬与批评的实验研究,其中比较著名的是赫尔洛克的实验。赫尔洛克把106名四、六年级数学程度相同的被试者分为4个等组,在四种不同的诱因情况下进行加法练习,四组情况如下:
摘要:计算机学科同其它学科相比有着很大的特殊性,它不仅实践性较强,而且知识点更新快。在信息技术课的教学中如何改进高效地组织课堂教学,是一个值得探讨的问题,掌握、获取知识的方法比掌握、获取现成的知识更为重要,这正是新课程所提倡的,也是信息技术学科发展的方向。  关键词:创新 观念 方法 驱动 整合    在信息技术快速发展的信息社会,如何在信息技术学科教学中更好的贯彻新课标的精髓,注重学生综合处理信
改革开放以来,我国的市场经济不断走向繁荣。在国家愈发强调保护私权利和逐步释放对矿业市场束缚的浪潮之下,矿业权流转市场持续升温。然而,鉴于矿业权的交易触及国家能源战
合唱能够加强师生之间、学生之间的互相沟通与交流,学生在合唱中增进了合作意识,同时也学到了唱歌技能方面的知识。这对于学生的自身是一种提升。但目前,在高中音乐教学中,教学方
随着环境复杂化、目标多元化以及任务多重化,现代雷达系统在多目标处理问题上面临着极大的挑战。针对目前多目标处理存在的问题:1)密集多目标场景在检测过程中存在遮蔽效应,高速目标的距离走动问题影响相参积累;2)多目标测距测速算法通常难以兼备估计性能和计算量;3)距离不可分辨的多目标场景下,传统的测角方法无法区分目标而导致测角失效。本文以凝视雷达系统为基础,利用其发射宽波束来获取较大的视场,并围绕大视场下