论文部分内容阅读
为实现局部文档集抄袭的识别,将基于回退数与前跳数的广义编辑距离的近似值定义为文档抄袭距离,分析该文档抄袭距离满足三角不等式成立和弱三角不等式成立时的充分条件,提出一种快速全文识别算法,能识别出文档集内涉嫌抄袭的所有文档有序对.实验结果表明,相比其他算法,该算法在兼顾识别召回率的同时效率提高了3倍~5倍.