基于网格分组和属性权值的相似重复记录识别算法

来源 :青岛大学学报：自然科学版 | 被引量 : 0次 | 上传用户：liliac

【摘要】

：

针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法.该算法采用分而治之

【作者】

：

杨巧巧郭振波王开西

【机构】

：

青岛大学数据科学与软件工程学院,青岛大学青岛大学计算机科学技术学院

【出处】

：

青岛大学学报：自然科学版

【发表日期】

：

2017年2期

【关键词】

：

网格分组属性权值相似记录检测 grid-based grouping attribute weights approximately duplicate

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法.该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别.理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题.

其他文献

基于委托—代理理论的高校教师转型激励机制研究

在以往研究基础上,尝试运用经济学领域的委托代理理论,将大学管理者视为委托人,教师为代理人,分析大学管理者与教师的委托代理关系,建立了委托代理模型,对大学管理者应该如何

期刊

应用型大学教师行为委托代理最优激励

两部图的计数

图论是数学的一个分支,它以图为研究对象,研究节点和边组成的图形的数学理论和方法.图论中的图是由若干给定的点及连接两点的边所构成的图形,这种图形通常用来描述某些事物之

期刊

图论标定图计数拓扑学一维分支图形数学研究对象实际two picturespicture countmaximum independent

漫议电子影像在电影技术中的应用

电子影像在电影前期制作、后期制作和放映等各个工艺环节中有大量应用,其中包括电子监视取景器、彩色配光机、电视电影机、视频转胶片、计算机动画、数字特技、数字化修复、

期刊

电子影像电影技术应用制作

基于网格分组和属性权值的相似重复记录识别算法

其他学术论文