论文部分内容阅读
互联网的飞速发展使得互联网的数据得到了指数级增长。与报纸、电视和广播这些传统的传输媒体相比,互联网更加高效实时、经济直观,并极具开放性,是新一代的大众传媒。互联网上的信息纷繁复杂,并存在大量的相似重复网页信息。这些相似重复网页信息不但给网络用户带来了相当大的困扰,增加了搜索目标信息的难度;也降低了竞争情报系统和搜索引擎的网页信息采集分析工作的效率。因此,关于相似重复网页去重技术的研究是一个极具实际意义的研究课题。本文在分析了当前相似网页去重技术的基础上,详细阐述了网页去重技术的整体流程,包括网页预处理、网页特征提取和相似性判断等,网页预处理包括网页格式正规化处理和网页主题内容提取。提取网页主题内容需先构建DOM文档结构树,然后去除图片、表单和网页脚本等噪声节点,最后定位候选子树节点和进行噪声指数计算。在相似网页去重算法上,以SimHash算法为基础进行适当的改进,为更准确地表征网页主题内容,在进行网页分词和去除停用词与无意义词后,采用单步前进制的单词序列作为网页特征项,融入了单词与单词的相互位置关系。为降低算法的时间空间复杂度,在进行网页特征项的权重计算的同时,提取出适当数量的网页关键词构建倒排索引系统,通过倒排索引系统提取出相关网页文档集以减少网页指纹对比次数。本文最后以开源项目Nutch作为平台,通过修改源码和增加插件的方式在Nutch项目中添加了中文分词模块和相似重复网页去重模块,并对算法的效果进行了适当的测试。实验结果表明改进后的算法相比于SimHash算法,在准确率和召回率上都有一定程度的提升,并且通过倒排索系统减少了网页指纹对比次数,提高了算法的运行稳定度。