论文部分内容阅读
为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略。考虑了以往ContextGraphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合考虑,对原算法进行了改进。将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法达到了更好的效果。