论文部分内容阅读
随着网络技术的发展与存储技术的提高,相似文本大量存在的现象越来越常见。将大规模数据中的相似文档检测出来,对于网络镜像,数据抽取,剽窃检测,垃圾邮件检测,语料库去重等有着重要的应用价值。在各种相似文档检测方法中,数字指纹算法是应用最多的一类算法。该算法速度快,正确率高,适用于海量数据的分析。本文中对数字指纹方法进行了详细的研究,并进行了改进。
本文的工作总结如下:
1.详细讨论了数字指纹类测试方法的各方面问题。包括文档分解策略,数字指纹选取策略和相似判别条件的确定。对实现具体的数字指纹方法具有参考价值。实现了两种不同的数字指纹方法,并对其结果进行对比。
2.对于较短的文本,数字指纹方法效果不是很好。本文针对这项缺陷进行了改进。文中提出了一种多层检测方法,采取数字指纹方法与压缩方法的结合来解决这一问题。实验数据表明,无论在正确率还是召回率上,多层检测算法的效果比数字指纹算法的结果都有所提高。