论文部分内容阅读
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度 较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法.该算法采用 分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行 相似重复记录的识别.理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基 于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数 据的相似重复记录的识别问题.