基于MapReduce的SimRank++算法研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:b110701007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展使信息以前所未有的速度增长和传播。随着网络数据爆炸式的增长,在网络中快速、准确地定位到自己想要查询的信息成为Web搜索领域的一项挑战。尤其是在赞助商广告检索系统中,由于用户输入的查询短语通常较短并且广告的竞价词频繁动态变化,精准地匹配到足够数量且相关性好的广告成为广告检索系统的一项技术难题。查询重写技术能够对原始查询重构出一系列相似查询,通过重构出的相似查询往往能够提高系统的查全率和查准率。  扩展的SimRank(SimRank++)算法是一种较好的查询重写方法,其通过查询点击数据,能够快速计算出两两查询间的相似度。然而,原始的SimRank算法具有较高的时间和空间复杂度,并且由于实际的互联网广告检索系统需要处理的数据规模非常庞大,因而难以对其直接应用。  作为“云”计算的核心技术之一,MapReduce分布式并行编程模型为大规模数据处理带来了方便,其通过“分而治之”的策略,把对数据集的大规模操作分发给网络上的每个节点,然后通过整合各节点的计算结果,得到最终的结果。在使用MapReduce编程模型时,待处理的数据集必须能够分解为多个规模较小的数据集,并且每个小规模数据集的并行处理任务相互之间没有依赖关系。因此,如何分解计算任务成为MapReduce编程的难点。  本文在对SimRank++算法和MapReduce编程模型深入研究的基础上,给出了使用MapReduce框架实现SimRank++算法的方法,主要研究内容概括为以下3个方面:  (1)针对查询重写任务,对SimRank++算法的计算公式进行了优化。通过矩阵转置的等价变换,略去了原始计算公式中的转移概率的转置矩阵;同时,针对查询-广告二部图的特性,把计算公式拆分成两部分,各部分的规模大大降低,并且可以依次计算。  (2)给出了基于MapReduce编程模型的通用矩阵乘法运算方法。通过矩阵的分块,使得乘法运算可以作用在较大的数据集上。给出了4种分块乘法策略,有效地消除了任务间的相互依赖关系。本文还对4种策略的系统开销进行了分析和对比。  (3)给出了使用MapReduce编程框架实现SimRank++算法的详细过程,主要包括权值矩阵和证据矩阵的计算、算法迭代步骤和相似度值归一化等步骤。同时,给出了一些可行的性能优化方法,主要包括:阈值过滤、自适应数据分片大小、Inplace技术、中间结果压缩等。通过实验验证了本文所提方法的有效性,并分析矩阵乘法运算和SimRank++算法的性能。
其他文献
随着计算机和网络技术的快速发展以及广泛应用,现代教育技术手段不断推陈出新,以弹性学习期限和交互式教学为主要特征的现代网络教学已经成为构筑信息社会终身学习体系的重要手
计算机化自适应测验(CAT)中具有智能的部分是选题策略,选题策略是CAT研究中最重要的部分。按CMT的功能来分,至少可以分为传统CAT与具有诊断功能的CAT。本文对传统CAT的选题策略和
图像显著区域的检测与提取是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。对于图像的显著区域检测是十分有用的,如图像分割,自适应压缩,基于区域的图像检
神经网络一直以来都是学术界研究的热点,而伴随着图形硬件的更新换代,目前基于深度学习的神经网络再次在各个领域取得丰硕成果。然而这些人工神经网络处理信息时并没有完整的
近年来,随着社会城镇化和人口老龄化的逐步推进,城镇和农村居民就医难、就医手续繁琐等一系列问题不仅体现在医疗资源的匮乏和社会保障的缺少方面,而且在公共服务保障措施方面的
随着数码摄像设备如数码相机、智能手机的普及,数码图像数量极速增长,每天数以亿计的照片被上传到互联网。面对海量的图像数据,如何将海量图像数据进行存储以及如何对其进行
随着互联网的发展,网络已经融入到人们的工作和生活中,网络管理也得到了快速的发展,现在的网络管理在功能上越来越完善,但网络管理系统的操作也变得越来越复杂。本文采用层次化的
无线射频识别技术(RFID, Radio Frequency Identification)是一种无线通信技术,其碰撞问题日益得到关注。阅读器与标签之间能否正常通信,阅读器能否准确的读取标签的内容决定
本文首先介绍了压缩感知理论框架,着重回顾了压缩感知重构算法的研究和应用现状,针对其本质是l0范数问题,将对直线边缘稀疏表示性能好的脊波(Ridgelet)冗余字典和遗传进化(Ge
随着互联网技术的迅猛发展,网络逐渐覆盖到了社会生活的各个角落。在互联网环境中,传统的身份认证方法面临巨大的挑战,越来越无法适应实际应用环境的需求。在所有的身份认证