基于Context Graphs的主题爬虫的研究与实现

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:yy838026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略。考虑了以往ContextGraphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合考虑,对原算法进行了改进。将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法达到了更好的效果。
其他文献
研究了药剂团聚对混合煤样中黄铁矿硫的脱除能力,探讨了搅拌速度、团聚剂和抑制剂的用量、矿浆浓度等因素对黄铁矿硫脱除率的影响。在所确定的最佳试验参数下,可获得黄铁矿硫脱