论文部分内容阅读
互联网信息规模的急剧增长,在给人们带来丰富信息资源的同时,也使人们迷失在信息海洋之中,传统的搜索引擎服务模式越来越难以满足互联网用户的需求。因此,面向某一特定领域的垂直搜索引擎技术逐渐成为当前的研究热点。本论文重点研究了垂直搜索引擎中的信息采集模块——主题网络爬虫,它是垂直搜索引擎中最关键的组成部分,是决定垂直搜索引擎性能好坏的重要指标。
本论文综合利用基于内容信息的主题相关度值与基于链接引用关系的网页重要度值预测待爬行URL的主题相关性,并引入遗传算法指导主题网络爬虫爬行,设计合理的适应于主题网络爬虫的选择、交叉、变异算子,进一步改善主题网络爬虫的性能。另外,在计算网页主题相关度时,本论文充分考虑了Web网页的半结构化特性,对不同HTML标记之间的内容赋予不同的权重。
最后本论文结合SecurityDataCollector系统的开发实现过程,设计并实现了一个面向信息安全领域的主题网络爬虫,通过这个可扩展的主题网络爬虫,对比分析了Bestfirstsearch算法、Sharksearch算法和本论文提出的综合利用文本内容信息和链接结构信息的基于遗传算法的爬行策略。实验结果表明,综合利用文本内容信息和链接结构信息的基于遗传算法的主题爬行策略会使网络爬虫的执行效率有所下降,但是网络爬虫的查准率明显高于Bestfirstsearch算法和Sharksearch算法,能够在一定程度上避免运行过程中出现“主题漂移”现象,防止过早地陷入局部最优,提高爬虫的全局搜索性能。