论文部分内容阅读
近年来,随着Internet / Web技术的快速普及和迅猛发展,互联网上的网页每天都以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。在如此类型繁多更新速度之快的形势下,Web数据挖掘已经成为现在人们信息获取的主要方式,搜索引擎成为人们获取信息的重要工具。但是现在的通用搜索引擎采用穷尽的方式爬行互联网上的网页,这种通用搜索引擎抓取信息的速度远远落后于真实产生的网页。同时,互联网信息所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给搜索引擎造成了相当的难度。因此,面向主题的智能检索系统应运而生并引起了研究者的极大重视。主题搜索引擎的爬行虫,称为主题爬行虫,主题爬行虫抓取互联网上与主题相关的页面来满足用户查询的需求,它具有花费时间少,所需存储空间小,能够满足用户个性化需求等优势。它自动识别主题信息,快速、有选择地遍历与主题相关的区域并下载网页,有效地避开与主题无关的区域,为面向主题的用户查询准备数据资源。但是对于Web自身复杂的结构和主题爬行虫的实时性,如何提高主题爬行虫的主题识别能力?如何在较短时间内下载更多与主题相关的网页?如何穿过与主题无关的网页到达与用户兴趣主题相关的网页?这些都是主题爬行策略需要解决的问题,也是目前主题搜索的研究焦点。本文对现有的几种主题爬行策略进行研究,发现现有的几种主题爬行策略对待爬行URLs的预测排序主要还是基于关键词的,对爬行预测还是停留在关键词层面上,没有做到语义预测的高度。本文是通过已检索的网页的内容和链接信息来预测主题爬行的爬行方向。引入形式概念分析,通过计算概念格中概念之间的语义相似度来进行预测,把主题爬行方向的预测提高到语义预测的层面。本文的主要贡献如下:(1)将概念格引用到语义相似度的计算中来,用已经爬行到的与主题相关的网页构建概念格,作为用户的主题背景信息,再将概念格映射到概念背景图中,通过计算网页与背景图中的概念的语义相似度来预测待爬行URLs优先级。(2)提出了一种概念背景图的构建方法,传统的背景图的构建方法有Diligenti在文章[14]中提出的链接背景图(LCG),是完全基于网页的链接关系的;ChingChiHsu等人在文章[15]中提出的相关背景图(RCG),是在网页之间的链接关系的基础上增加上一个相似度的计算。本文的方法是在概念格的基础上,由概念属性词之间的关系把概念格中的每一个概念映射到背景图中,形成概念背景图。(3)提出了一种基于语义分析和链接分析相结合的主题爬行策略。使用构建好的概念背景图,对网页进行语义相似度的计算,保证爬行回来的网页更加接近主题,结合网页的链接关系来指导爬行,使爬行虫能够选择正确的方向,快速的跳过与主题无关的区域,到达与主题相关的区域。(4)构建主题搜索系统,获取网络数据,通过主题相关文档数量、召回率、精确率,这几种评价指标来检验本文的搜索策略,并且与宽度优先的爬行策略和其它几种主流的爬行策略在相同的数据集下进行实验比较,得出了本文提出的策略是可行的。