论文部分内容阅读
互联网中的网站可以通过Spam技术来提升自己在搜索引擎中的排名,从而为自己带来经济利益。但是与此同时,这些Spam技术却干扰了搜索引擎正常的排名结果,给搜索引擎带来了很大的挑战。为此,人们一直在研究算法来检测Spam技术。
本文针对如何有效检测针对网页重要程度的Spam技术进行研究。我们分析发现目前的算法主要分为基于结构信息和基于时域信息两种。本文针对目前比较流行的Spam技术,从网络链接图中设计并提取了大量的结构信息特征和时域信息特征,用机器学习的方法分别训练了基于结构信息的Spam网站分类器和基于时域信息的Spam网站分类器,并取得了很好的实验结果。
在此基础上,针对结构信息和时域信息各自的优势以及网站的多样性,本文设计并实现了一种将结构信息特征和时域信息特征结合起来检测Spam技术的方法。它根据网络链接图中网站出现情况的不同来选用不同的分类器预测网站性质,以提高预测准确率。该方法在实际的网络应用中取得了很好的效果。最后,本文通过介绍一个基于Spam网站分类器来实现的工具Spam Detector,展现了检测Spam技术所带来的优势。