面向大数据集成的实体识别关键技术研究

来源 :华中科技大学 | 被引量 : 3次 | 上传用户：liongliong509

【摘要】

：

现代互联网每日产生大量的数据,引发了对大规模数据处理的需求。面对海量的数据,研究者们提出了新形式的分布式文件存储系统,并且基于文件系统之上提出了并行的计算方式解决

【作者】

：

李文杰

【机构】

：

东北大学

【出处】

：

华中科技大学

【发表日期】

：

2014年01期

【关键词】

：

实体识别 MapReduce BSP 实体匹配实体合并相似子图

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代互联网每日产生大量的数据,引发了对大规模数据处理的需求。面对海量的数据,研究者们提出了新形式的分布式文件存储系统,并且基于文件系统之上提出了并行的计算方式解决大数据带来的计算效率的挑战。最具代表的是Google提出的MapReduce并行计算模型与基于BSP计算模型的图数据处理引擎Pregel,使得很多基于大数据的最常见计算能够在大规模计算集群中得以高效的实现。实体识别(Entity Resolution)是指在判断一个或多个数据源中两个不同记录是否描述同一实体,有时也被称作记录连接(Record Linkage).在数据集成中,实体识别被用于数据清洗(Data Clean)的去重(Deduplication)和数据集合的相似连接(Similarity Joins)等操作中。实体识别技术可被广泛应用于人口普查、引文识别、Web搜索、数据清洗以及剽窃检验等诸多领域。然而随着数据集规模的日益增大,集中式处理几百GB数据时已经出现性能瓶颈,更不用说TB、PB级别。由于实体识别的关键技术可以采用并行计算模型进行分布式处理,因此采用MapReduce计算模型和BSP计算模型能够很好地处理大规模数据集上的实体识别问题,提高执行效率。本文针对实体识别的关键技术进行了研究,提出了基于MapReduce计算模型的实体匹配策略和基于BSP计算模型的相似子图构建策略。实体识别的处理过程可以分为两个阶段：实体匹配和实体合并。实体匹配从数据源中发现所有满足阈值约束的相似记录对。实体合并划分实体匹配过程发现的相似记录对,形成相似子图集合,合并相似子图记录。在实体匹配阶段,本文在PPJoin算法的基础上提出了基于映射表和基于二分查找的新方法,通过采用映射表和二分查找替代倒排索引,在保持原有算法过滤效果的同时,加快了记录间相似度验证的速度,有效提高了记录匹配的效率。针对相似子图构建,本文提出了基于BSP计算模型的新方法,利用超步迭代取代了基于MapReduce计算模型的作业迭代,利用异步通信减少了迭代次数,通过节点数量控制实现了迭代控制,有效提高了相似子图构建的效率。对于提出的基于MapReduce计算模型的实体匹配策略和基于BSP计算模型的相似子图构建策略,本文基于Hadoop和Hama平台,采用ACM和DBLP的真实数据集进行了实验。针对实体匹配,我们比较了相同实验条件下基于映射表和基于二分查找的算法与PPJoin算法在Hadoop平台上的性能,实验结果表明基于映射表和基于二分查找的算法相比较PPJoin算法在性能上有了很大提升,并且在不同相似度阈值的情况下表现稳定。对于相似子图构建,我们比较了基于MapReduce计算模型和基于BSP计算模型算法在Hadoop和Hama平台上的性能,实验结果表明基于BSP计算模型算法的性能要明显好于基于MapReduce计算模型算法的性能。

其他文献

基于P2P的Web服务发现关键技术的研究

近年来,随着Internet技术的飞速发展,web服务已经成为蓬勃兴起的一种分布式计算模型,它能够实现不同平台上、不同程序语言编写的应用程序之间无缝的互操作。Web服务的大量涌

学位

Web服务服务发现分层结构P2PDHTChord

WSNs拓扑管理系统及LEACH-DN算法的设计与实现

网络的拓扑控制技术是无线传感器网络的核心技术之一。拓扑控制主要用于传感器网络的节约能量、碰撞避免、提升网络性能等。优良的拓扑控制方法不仅可以延长传感器网络的生存

学位

无线传感器网络拓扑控制能量均衡密集型网络拓扑管理系统

主流操作系统隐藏程序的检测关键技术研究

在网络攻击中,隐藏技术被越来越多地应用于恶意程序的保护。由于程序隐藏使用的技术通常都比较复杂,常规检测工具一般难以检测出来,所以针对当前恶意程序所采用的主流隐藏技

学位

交叉视图恶意程序隐藏程序隐藏程序检测挂钩

基于安全视图的XML访问控制模型的研究

XML是目前信息交换和存取的新兴技术，而XML文档中的敏感信息需要各种机制来保证其安全性，访问控制是其中之一。有关细粒度的XML访问控制的研究最多，其中以基于安全视图的访问控

学位

信息安全安全策略安全视图访问控制基于角色的访问控制XML

基于电子钥匙的身份认证安全平台设计与实现

随着电子商务、电子政务和移动计算技术的快速发展,为了实现有效的访问控制和安全的网络通信,身份认证变得越来越重要和复杂。虽然基于USB Key(Universal Serial Bus Key)的

学位

安全平台身份认证电子钥匙状态检测传输服务提供者网络驱动程序接口规范

广域网存储中高速数据传输研究

网络技术的发展和网络应用使得数字信息呈爆炸式增长趋势,对存储的需求也越来越大,新型网络存储系统的研究已经成为计算机领域的热点。下一代互联网对网络存储的容量,服务质

学位

网络存储传输中间件数据连接复用

基于计算机视觉的棉花群体生长指标检测

棉花是我国最重要的经济作物，是仅次于粮食的第二大宗农产品。棉花生产直接关系农业和棉纺工业的发展，关系国计民生。我国人多地少，棉花种植面积十分有限。因此，加强栽培中的调控

学位

棉花叶面积指数水分调控计算机视觉图像处理

嵌入式实时中间件ARTs-ORB的任务管理

由于受到处理器性能、存储容量和能耗等方面限制,实时嵌入式软件在发展过程中一直落后于主流软件发展的逻辑方法,在发展和维护上都支付了昂贵的代价。更为糟糕的是实时嵌入式

学位

实时系统实时中间件优先级映射

目的层电梯群控策略研究与设计

在高层建筑中,电梯是不可缺少的垂直运输设备,电梯服务的好坏直接关系到人们的生产生活。随着电梯控制技术的飞速发展,很多先进高效的思想被引入到电梯群控技术中来,对电梯的

学位

目的层群控BP神经网络乘客聚类多目标派梯

基于颜色特征和SVM的交通标志识别技术的研究与实现

随着社会的进步与经济的快速发展,城市交通拥挤甚至堵塞现象日趋严重,成为现代城市发展的主要瓶颈之一,交通安全事故频发亦引起各国社会的普遍关注。在这种情况下,人们开始进

学位

颜色特征SVM交通标志识别

面向大数据集成的实体识别关键技术研究

其他学术论文