【摘 要】
:
搜索引擎解决了网上查找信息难的问题。随着网络信息指数级增长以及行业分工不断加大,针对专业领域的信息搜索在精度和深度方面要求日益提高,主题搜索引擎必然成为搜索引擎的
论文部分内容阅读
搜索引擎解决了网上查找信息难的问题。随着网络信息指数级增长以及行业分工不断加大,针对专业领域的信息搜索在精度和深度方面要求日益提高,主题搜索引擎必然成为搜索引擎的发展方向。然而,随着网页主题的多元化,以网页为最小单位进行处理的主题搜索引擎存在链接预测不准确、隧道穿越能力低、网页消重效果差、检索质量不高等问题,导致了主题搜索时易出现主题漂移现象。基于以上问题,本文将网页分块技术应用于主题搜索,在主题搜索时将网页中的内容块作为最小处理单元,而不再是整个网页。但传统网页分块算法对多主题网页分块效果不好,因此不适合应用到主题搜索引擎中。针对这一问题,本文提出一种能适应多主题网页分块的新算法CTVPS,该算法充分利用网页中的视觉信息、标签信息和链接信息,同时在分块过程中提出若干启发规则来控制分块的精度和粒度。在完成了网页分块的基础上,本文提出了与之适应的主题相关块提取方法即将文本分类中的分类模型移植到内容块分类中,实现了主题相关内容块的提取。最终使主题搜索引擎在链接预测准确度、索引容量和检索质量等问题上得到较大改进,从而降低主题漂移问题的出现。在基于网页分块的主题搜索引擎系统Search Smart的设计和实现中,本文将网页分块作为Search Smart的核心,同时对开源搜索引擎Nutch进行了分析和代码复用。最后,通过Search Smart系统的运行和测试,对系统的爬行性能、检索质量两个重要指标进行了结果分析,最终验证了本文思想正确性并提出后续可能的改进方向。
其他文献
多核技术已经是现代处理器发展的主流趋势,它的诞生给软件开发技术带来了新的挑战。如何编写出高效的并行程序使之充分地利用多核的资源,这一直是学术界和工艺界致力于解决的
随着社会经济与科学技术的发展,信息技术得到了广泛的应用,许多领域积累了大量的数据,迫切需要一种新技术与工具来帮助人们快速地从海量的数据中找出重要的有价值的信息,数据挖掘
随着数字多媒体技术以及因特网技术的飞速发展,多媒体产品的安全问题成为目前一个相当重要而又富有挑战性的研究课题。各种数字作品在其传输和使用中,必然会经历各种操作或攻
随着信息技术的迅猛发展和流行,针对信息和资源的搜索技术,逐渐在商业应用和科研领域成为必不可少的技术之一。如:垃圾邮件过滤、图片搜索、视频搜索,以及信息检索等。目前,搜索应
无线传感器网络(WSN)集成了传感器、嵌入式计算、分布式信息处理和无线通信四大技术,是一种全新的信息获取、处理和传输技术。时间同步作为研究无线传感器网络的一个重要方向
基于用户名/口令的认证是当前最常用的认证机制之一,广泛地应用于操作系统以及电子邮件、网上银行等Web应用系统中以鉴别用户的身份。随着网络和Web技术的不断发展,使用基于
在行业MIS系统的开发过程中,随着需求越来越复杂,两方面的问题越来越突出。一方面,系统开发中涉及到的元素越来越多,怎样才能有条不紊地将这些元素组织起来,并保证没有遗漏;另一方
随着互联网技术的飞速发展,越来越多的学校、政府和企业等通过网络开展业务,进行信息交流。互联网在给人们的生活带来方便和快捷的同时,也带来了大量的问题,其中网络安全问题日益
随着三维数据采样技术和硬件设备的长足发展,使得现今对雕刻曲面建模所采取的方法越来越广泛和直接。本文根据雕刻曲面的特点,提出基于RBF的雕刻曲面建模,主要通过两种不同的
WebCIS是在Internet 下对空间信息进行显示、处理和分析操作的地理信息系统,WebGIS作为Internet 影响巨大的Web 服务应用之一,在实现矢量数据内插方法之后,可以进一步达到优化、