基于网页分块思想的搜索引擎索引系统

来源 :天津大学 | 被引量 : 0次 | 上传用户:xf6088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的搜索引擎都是对整个页面建立索引并用于检索的,但某些页面中可能包含不同的主题块,如果用户提交的多个关键词恰好分别位于不同的主题块内,则即使页面与用户检索请求不相关,搜索引擎仍会把该页面返回给用户。为改进搜索引擎的索引系统,引入了网页分块的思想。本文选择了VIPS算法作为网页分块算法,但经典VIPS算法在实际应用中存在着切分粒度不好控制的问题,针对切分过粗和切分过细两种情况,本文分别引入了节点深度阈值和叶子节点数目阈值,使得VIPS算法可以根据页面特征进行切分粒度的自适应。在三大门户网站爬取页面作为测试集,通过改进算法与经典算法的对比试验,证明了改进算法的有效性。对给定网页先行分块,并基于块内容将主题相关的块合并为子文档,然后再对各子文档分别建立索引。这样只有当用户提交的多个关键词完全包含在某个子文档内时,搜索引擎才会把原页面返回给用户。基于网页分块,设计了改进的搜索引擎索引系统,制定了一些规则过滤与正文无关的块,并对剩下的块进行分类。最后,通过拟定三组种子关键词组,并向Google提交查询得到测试集,将该集合与索引改进后的检索结果进行比较。实验证明,本文所提供的索引方案较大程度上提高了检索的准确率和F1测试值。
其他文献
随着嵌入式Internet技术的发展,家居的智能化是当前的一种发展趋势,智能化逐步渗透到家庭生活中,如信息家电、水电自动抄表系统、安防系统等。家居远程监控系统是智能家居的
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方
新一代的万维网——语义网,使自动化处理信息和信息的机器理解更加容易。然而随着网络的发展,大量含糊的不确定的模糊信息也需要表达和推理。这就需要一种能够处理模糊信息的
计算机现实模拟是计算机图形学和现实世界表现相结合的产物,流体模拟则是计算机现实模拟领域的一个重要研究方向。大多数流体模拟研究均采用基于物理的模拟方法,需要考虑周围
下一代网络(NGN,Next Generation Network)技术的发展已经进入成熟阶段,国内通信运营商在其技术优点的驱动下大量进行国内的NGN网络建设,大约每年以30%左右的速度增加。目前
建立在统计学习理论和结构风险最小原则上的支持向量机在理论上保证了模型的最大泛化能力,因此与建立在经验风险最小原则上的神经网络模型相比,理论上更为完善。支持向量机是
随着互联网的迅速发展,人们通过网页分享与交流着大量的信息,如何快速全面准确地获取互联网上的信息,成为人们迫切关心的问题。网页话题识别研究将为网页搜索与检索、经济决
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,我们比以往任何时候都迫切地需要高效、全面、方便的学术信息。但另一方面
随着网格技术的快速发展,数据传输技术越来越凸显出它的重要性,因为它不仅在处理海量数据的数据网格中占据着不可撼动的位置,在计算网格、服务网格等领域也起着至关重要的作
随着半导体技术的发展和信息技术以及数字化产品的普及,嵌入式系统已被应用到网络、手持通信设备、仪器仪表、国防军事以及自动化控制等各个领域。而结合视频监控的嵌入式应