论文部分内容阅读
互联网的飞速发展使得主题爬行程序需要处理的网页越来越复杂,现在有相当数量的网页是多主题的(Multi-Topic)。如何在一个网页内部进行有选择的爬行,是近年来研究人员渴望解决的问题之一。本文解决这个问题的思路表述如下:首先,后端分类器判断下载的网页是否相关;其次,提取相关网页中每一个链接的锚文本,将链接及其对应的锚文本放入Frontier;最后,利用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页。本文首先解决怎样获取质心向量的问题。在Reuters-21578以及20 News-groups数据集上,本文进行获取质心向量的实验。实验结果显示:传统的TFIDF模型并不是计算根集文档特征权重的最好方法。这促使本文给出文档特征权重的计算方法—TFIDF-2模型,以及质心特征权重的计算方法—Max、Ave、Sum三个启发式规则,这样获取质心向量的问题解决了。质心向量得到之后,本文使用它给锚文本打分,这相当于提取未标识数据集中的相关文档。显然,这里的未标识数据集由锚文本组成,而相关文档是指那些描述的内容与根集文档相关(或者用户感兴趣)的锚文本。另外,将质心向量应用到文本分类的过程中,本文发现了一种计算质心向量与测试文档相似度的新方法。前后端分类器得到以后,本文将它们应用到主题爬行领域。质心向量作为前端分类器它为主题爬行(Focused Crawling)提供的是立即回报(ImmediatePayo?),而后端分类器为主题爬行提供的则是长期回报(Delayed Payo?)。这种双分类器框架使得爬行程序在某种程度具有穿越隧道(Tunneling)的能力。在质心向量的指导下,爬行程序只需使用锚文本便可以准确的预测链接所指向网页的相关性。本文的实验结果验证了上述结论是正确的。在线的增量爬行是主题爬行领域必须解决的问题之一。通常,最初给定的网页样例或种子链接不可能也没必要覆盖一个主题的所有细节,况且随着时代的发展,很多主题都会有新的变化,这些新变化可以以自动的或者手工的方式通过某个环节添加到主题爬行中。实验结果表明:上述方法可以实现对爬行策略的及时更新,从而达到增量爬行的目的。