主题爬虫搜索策略及关键技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xy479977530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题网络爬虫是主题搜索引擎的关键技术。主题爬虫能够智能地采集与特定主题相关的网页,而避免不相关网页的访问;主题爬虫的提出与运用能够极大缓解目前基于通用网络爬虫的搜索引擎中搜索覆盖率低,搜索精度低、网页更新不及时而无法满足用户的个性化需求的问题。主题爬虫的核心难点是预测未访问链接的主题相关度。目前比较经典的主题爬虫中普遍采用向量空间模型来计算网页内容的主题相关度,这种方法没有考虑到主题词项的语义信息;在网页内容相关性分析链接上下文时,往往引入噪音,不能准确反应主题相关性;在结合链接结构分析和内容相似性分析时考虑因素不全,只是二者分值相加;在主题爬取过程中没有考虑隧道特征,或者引入隧道方法不佳导致大量非相关网页被下载。为了解决上述问题,本文研究工作如下:(1)本文在原有向量空间模型的基础上,还考虑关键词项的语义相似度,提出了基于词项语义相似度的向量空间模型(TSSVSM)。本文主题爬虫算法将利用TSSVSM模型计算网页文本与主题的相似度。(2)本文在分析隧道特征的基础上,提出了自适应隧道穿越方法,此方法能够网页内容和穿越路径的相关性综合动态计算隧道穿越的距离,从而在获得更多主题相关网页的前提下减少无关网页的访问。(3)本文分析了链接上下文的局限性,在计算内容相似度时去掉链接上下文因素而加入网页标题因素,网页内容相似度由网页标题、网页文本和锚文本综合决定,然后对OPIC算法进行改进,提出了依据网页内容相似度大小进行不平均分配现金值的NOS算法。(4)本文在开源网络爬虫Nutch上定制和实现本文提出的主题爬虫算法和其他主题爬虫算法,使用收获率和召回率作为实验评价指标。本文从ODP中选择主题和种子网页,并将本文算法和Best-First算法、Shark-Search算法和OTIE算法进行对比实验。实验结果表明本文提出的主题爬虫算法不仅具有明显好的查全率,而且具有很好的查准率。
其他文献
随着多媒体技术和网络技术的迅猛发展,多媒体服务,尤其是以视频内容为核心的流媒体服务如视频会议、视频电话、视频点播等成为目前非常具有吸引力的应用领域。面对目前和将来日
学位
随着软件技术的发展,尤其是Web服务的出现,面向服务的新的软件系统开发方法——SOA(Service-Oriented Architecture)被提出并得到迅速发展。SOA作为软件体系结构最具应用前景
在嵌入式系统中,引导/装载程序通常负责对内核的引导和为软件开发提供一个良好的调试环境,在传统的引导/装载程序中,仅完成简单的引导工作和基本的调试接口。随着嵌入式系统
现有的虚拟机系统处理图形应用时大部分依赖于处理器和内存模拟的虚拟显卡,而虚拟显卡的主要功能是用来显示简单的图形界面,并不具备硬件图形加速的能力。当处理复杂的图形应
无线传感器网络综合了传感器技术、微型机电系统(MEMS)、无线通信技术、分布式信息处理和嵌入式计算等技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处
几乎在所有岩体中都存在裂隙,精确有效的获得岩石节理裂隙的几何信息,对于岩石工程项目的成败,山体灾害的精确预测起着至关重要的作用。岩石节理粗糙度系数JRC(Joint Roughne
学位
以IPv4为核心协议的互联网获得了巨大成功。然而,随着因特网与因特网服务不断地突飞猛进,IPv4在因特网的目前规模与复杂性面前已经暴露其不足之处,这些问题成为制约互联网发展的
得益于无线通信技术和低功耗嵌入式技术的飞速发展,一种新兴的分布式网络正得到广泛的关注。Wireless sensor networks,简称WSN,即无线传感器网络是由大量网络节点(传感器节
运用了TCP/IP的Internet在互连全球通信网络上取得了巨大的成功,但随着科学技术的发展和各个领域新的通信需求的提出,出现了一类新型的“受限网络”[1]。这类网络具有节点的随
随着互联网技术的飞速发展,以及网络普及率的日益上升,越来越多的信息在网上传播,网络已逐步成为了人类信息交流沟通的主要途径。图像信息作为多媒体的最主要的信息在网上越