基于分布式并行计算的搜索引擎的研究与设计

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wtt014789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。 搜索引擎一般由Crawler、索引库、检索器和用广接口组成。Crawler从Web上下载页面:分析器对下载页面的内容进行分析以用于建立索引;索引器将文档表示为一种便于检索的方式并存储在索引数据库中;检索器实现用户查询关键词和目标文档匹配度的计算;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。 由于搜索引擎处理的对象是十分庞大的数据量,同时互联网的结构是分布式的,搜索引擎设计成分布式并行处理的系统同时用若干机器协同计算处理,分布式并行的方法可以取得更好的性价比。本文论述构建一种基于分布式并行计算技术的Web搜索引擎模型架构。采用分布式并行编程模式,选用了任务分发和SPMD模式。采用功能分解、迭代分解、几何分解相结合的分解技术。在并行编程中线程是流行的模型,在并行计算上采用JAVA Thread和Thread Group的编程模型。消息传递对分布式的并行编程是有效的,在分布式计算的消息传递上采用Java的Socket通信方式。 对于任务分发的模式主要用于初始时URI集的分发,由若干个节点机器并行抓取,对于每个节点提取的URI的主域的HashCode模N得到处理该URI的节点机器,即发送到该编号机器处理,对于每个节点机器又是SPMD模型,他们的处理流程相似,区别在于处理的URI不同。 在Web搜索引擎的设计上,设计基于全文内容的搜索,论述了数据采集器Crawlers的广度优先和深度优先抓取策略;Robot协议;数据的处理;Web内容的提取;Web分析;中文分词和索引技术。介绍了用查全率、查准率对搜索引擎的评测。在搜索引擎的结果处理上,分析比较了几种搜索结果排序算法包括PageRank、HITS、HillTop算法,在分析PageRank算法和HITS算法的缺陷后,提出了基于关键字与锚文本之间相关性、关键字与文档之间相关性以及相关文档的最小集合分析相结合的改进算法思想。讨论了搜索引擎的未来发展。同时介绍了几种移动搜索、领域搜索、个性搜索应用模式。
其他文献
人脸识别具有主动性、用户友好和非侵犯性等优点,在国家及公共安全、信息金融安全、人机交互等领域具有巨大的社会价值和应用前景。正因为这样,人脸识别一直是模式识别和机器视
模板技术在建筑、办公、特征识别、复杂分析计算等众多领域应用广泛并且发挥了重要作用。本文在CSCW技术和模板技术的研究基础上,结合协同设计中的问题,展开了协同模板的相关
动态环境下的多机器人行为规划是本论文的论述重点,具体的实现和实验环境是RoboCup小型组机器人足球比赛。这篇论文包括以下内容:RoboCup小型组的背景知识类似研究成果介绍中国
实时交通流数据的采集,包括车流量统计、车道平均车速、车型识别分类等,在智能交通监控系统中起着重要的作用。交通流检测器有电磁感应线圈、超声波检测器、微波监测器和红外
近年来,XML在数据表示和交换上扮演越来越重要的角色,其存储也受到更多数据库的支持。XML成为被广泛应用的逻辑数据模型。XML与数据库技术开始有了融合,对XML所代表的信息建
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前计算机的智能水平还远远不能与人类相提并论
随着计算机网络技术的发展,人们对网络传输数据的安全性要求越来越高。传统的加密体制使用同一个密钥进行加、解密,要求在传输密文的同时也要将密钥传输给接收者,这就增加了
图像的显著性是以区域的形式表现出来的,是指图像中最引人注意且最能表现图像内容的部分。显著性检测就是通过模拟人类视觉系统将图像中的显著部分提取出来的过程。图像显著
网络多媒体监控系统是一个集多媒体信息的综合性、计算机的交互性、通信的分布性和监控的实时性等技术于一体的综合系统。针对当前的网络多媒体监控系统具有部署困难、跨平台
随着虚拟现实硬件设备以及虚拟现实技术的发展,虚拟现实不仅在科研和设计等领域应用广泛,在科技展示领域也得到了越来越多的应用。应用了虚拟现实技术的科技展品比传统的科技