基于Simhash的中文文本去重技术研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：liongliong586

【摘要】

：

随着计算机技术的飞速发展，各领域存储系统中的数据存储量迅猛上升，而其中的冗余数据也呈不断增加趋势。以往的研究表明，某些存储系统中的冗余数据已达60％，其存储管理成本较高。处

【作者】

：

彭双和图尔贡·麦提萨比尔周巧凤

【机构】

：

北京交通大学计算机与信息技术学院

【出处】

：

计算机技术与发展

【发表日期】

：

2017年11期

【关键词】

：

重复数据删除 Simhash HASH 数据分块 data deduplication Simhash hash data blocking

【基金项目】

：

中央高校基本科研业务费专项资金资助项目（2015JBM034）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的飞速发展，各领域存储系统中的数据存储量迅猛上升，而其中的冗余数据也呈不断增加趋势。以往的研究表明，某些存储系统中的冗余数据已达60％，其存储管理成本较高。处理冗余数据已成为目前存储系统研究的热点。为此，提出了一种基于Simhash的中文文本去重方案。该方案采用数据块作为粒度对重复数据进行去重处理，主要是将中文文本中的“。？!”等特殊字符作为分割点，对数据进行相应的分块处理，并以Simhash作为唯一标识，通过海明距离（HammingDistance）来判断其相似性并以此为依据进行数据去重。

其他文献

关于加强行政事业单位国有资产管理的思考

行政事业单位的国有资产数额庞大,如何对其进行规范的管控,关系着国家经济运行、社会资源配置等重要问题。本文结合行政、事业单位国有资产管理暂行办法,尝试从行政事业单位

期刊

行政事业单位国有资产管理重要性问题对策

努力学习周恩来同志的崇高精神

江泽民同志在周恩来诞辰一百周年纪念大会上的讲话中指出,周恩来同志是中国人民的忠实儿子,是中国共产党人的优秀代表。周恩来,这是一个光荣的名字,一个不朽的名字。在他的身

期刊

周恩来崇高精神努力学习中国人民中国共产党人传统美德工人阶级共产主义中华民族封锁禁运

基于Web的工业无线传感器网络图路由时隙调度

无线传感器网络以其低成本、低功耗、易部署等优势广泛应用于各个领域。在工业环境中，对信号传输的实时性和可靠性要求非常高，但是目前的无线传感器网络主要工作在分布式系统下

期刊

工业无线传感器网络集中控制图路由可视化管理industrial wireless sensor networks centralized contro

新政府会计制度下职业学校财务管理探讨

随着新政府会计制度的深入实施,其优势和价值也逐步彰显,对节约财政资金开支和更好地分配使用资金都有积极作用。职业学校作为事业单位,也因新政府会计制度施行而受益匪浅。

期刊

政府会计制度职业学校财务管理改革

全球化对当代民族问题的影响

期刊

全球化当代民族问题移民文化冲突

基于分布式倒排索引的频繁项集挖掘

频繁项集挖掘是关联规则挖掘中的核心，其直接影响了频繁项集的产生效率。针对Eclat算法在挖掘海量数据中的频繁项集时存在的内存和计算资源不足等问题，文中设计了通过分布式倒

期刊

Eclat算法频繁项集倒排索引并行计算Eclat algorithm frequent itemset inverted index parall

基于GID的车联网数据安全方案

车联网在＂端-管-云＂三层架构的基础上,提供丰富的智能交通综合服务。然而,将数据放置在云端处理和存储,加大了数据被非法用户窃取的风险。为此,提出了基于网络基因GID（Gene IDen

期刊

车联网云存储数据安全网络基因IOV cloud storage data security network gene

地方政府投融资平台公司规范化管理探究

随着我国社会经济的不断发展,地方政府投资项目越来越多,国有地方政府平台公司的投融资范围越来越广,平台数量也在不断增加。为了进一步加强国有地方政府平台公司在政府投资

期刊

地方政府平台公司规范化管理探究

新政府会计制度执行问题及措施探讨

2019年1月1日起全国政府会计主体单位统一执行新会计制度,通过一年多时间运行,操作中存在许多实务问题,笔者通过与省内多位财务同行进行交流,了解到各单位执行制度的相关情况

期刊

政府会计制度实务问题解决方案

乙型肝炎表型间的GLU、ALT相关性探讨

目的探讨乙型肝炎（乙肝）患染期5种表型中的大三阳、小三阳的患者的谷丙转氨酶（ALT）、空腹血糖（GLU）含量变化相关性。方法 211例乙肝大小三阳患者,其中大三阳83例,小三阳128例,采用

期刊

乙型肝炎葡萄糖谷丙转氨酶Hepatitis BGlucoseAlanine aminotransferase

基于Simhash的中文文本去重技术研究

与本文相关的学术论文