基于MapReduce与两层相关性聚类的实体解析方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:punk123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
两层相关性聚类算法由于引入公共邻居,在解析的正确性及抗噪声能力方面性能较好。但该算法分两层执行,在时间效率上不具优势。为此,提出将该算法在MapReduce框架下实现,利用分布式计算提高其执行效率。通过设计辅助文件减少内存消耗以及中间数据的输出,给出分布式环境下的块更新规则,并改写第二层的调整块算法,将需要实时更新的数据统一计算后,根据更为显著的关联特征进行处理。实验结果表明,与TT算法和DTT算法相比,该方法不仅能保证解析的准确性,而且在时间效率上也有大幅提高。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
充满情趣的历史教学可以提高学生的学习兴趣,增强教学的效果。教师要采用灵活的方法、开放的思维创设充满情趣的教学环境,提高学生对历史知识的分析理解能力,培养学生的创新
高速缓冲存储器(Cache)作为微处理器的重要组成部分,在芯片面积和功耗上都占比过高。针对Cache功耗问题,基于分段访问Cache技术和路预测Cache技术,提出一种低功耗组相联Cache的预
目的:系统分析影响化妆品安全的多方因素,为进一步加强化妆品安全监管提供参考,为探索适合我国的化妆品安全监管体制提供思路。方法:从影响我国化妆品安全的因素出发,介绍并
【正】 为了贯彻执行毛主席的革命体育路线,使网球运动真正为无产阶级政治服务,为工农兵服务,在三、五年内赶上国际先进水平,就必须认真研究网球运动的规律性,因人制宜、因地
在对皖北篾器产品的SWOT分析、产品调研和产品定位的基础上,对皖北篾器使用领域、原生态创新和新产品开发的可行性路径进行分析。提出了综合运用多种材料、系列化与交互式产
<正>长江经济带并非是一个新概念,但当"理想"即将付诸"现实",从舆论关切殷殷、市场热情满满,可知期盼之情何等强烈。如果说30年前,沿海经济开发区的设立凝聚了中国"开眼看世
针对单一传感器难以准确描述转子振动情况的问题,提出一种基于改进D-S证据理论的全信息故障诊断方法。结合小波分析和信息熵理论,提取各测点振动信号的全信息故障特征向量。
新课程理念对语文能力的要求越来越倾向于要求学生关注生活、关注时代、关注社会、关注生命。本文结合实际,提出了让语文微生活化具体方法。 The new curriculum concept of