论文部分内容阅读
主题网络爬虫是主题搜索引擎的关键技术。主题爬虫能够智能地采集与特定主题相关的网页,而避免不相关网页的访问;主题爬虫的提出与运用能够极大缓解目前基于通用网络爬虫的搜索引擎中搜索覆盖率低,搜索精度低、网页更新不及时而无法满足用户的个性化需求的问题。主题爬虫的核心难点是预测未访问链接的主题相关度。目前比较经典的主题爬虫中普遍采用向量空间模型来计算网页内容的主题相关度,这种方法没有考虑到主题词项的语义信息;在网页内容相关性分析链接上下文时,往往引入噪音,不能准确反应主题相关性;在结合链接结构分析和内容相似性分析时考虑因素不全,只是二者分值相加;在主题爬取过程中没有考虑隧道特征,或者引入隧道方法不佳导致大量非相关网页被下载。为了解决上述问题,本文研究工作如下:(1)本文在原有向量空间模型的基础上,还考虑关键词项的语义相似度,提出了基于词项语义相似度的向量空间模型(TSSVSM)。本文主题爬虫算法将利用TSSVSM模型计算网页文本与主题的相似度。(2)本文在分析隧道特征的基础上,提出了自适应隧道穿越方法,此方法能够网页内容和穿越路径的相关性综合动态计算隧道穿越的距离,从而在获得更多主题相关网页的前提下减少无关网页的访问。(3)本文分析了链接上下文的局限性,在计算内容相似度时去掉链接上下文因素而加入网页标题因素,网页内容相似度由网页标题、网页文本和锚文本综合决定,然后对OPIC算法进行改进,提出了依据网页内容相似度大小进行不平均分配现金值的NOS算法。(4)本文在开源网络爬虫Nutch上定制和实现本文提出的主题爬虫算法和其他主题爬虫算法,使用收获率和召回率作为实验评价指标。本文从ODP中选择主题和种子网页,并将本文算法和Best-First算法、Shark-Search算法和OTIE算法进行对比实验。实验结果表明本文提出的主题爬虫算法不仅具有明显好的查全率,而且具有很好的查准率。