基于Simhash的中文文本去重技术研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:liongliong586
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,各领域存储系统中的数据存储量迅猛上升,而其中的冗余数据也呈不断增加趋势。以往的研究表明,某些存储系统中的冗余数据已达60%,其存储管理成本较高。处理冗余数据已成为目前存储系统研究的热点。为此,提出了一种基于Simhash的中文文本去重方案。该方案采用数据块作为粒度对重复数据进行去重处理,主要是将中文文本中的“。?!”等特殊字符作为分割点,对数据进行相应的分块处理,并以Simhash作为唯一标识,通过海明距离(HammingDistance)来判断其相似性并以此为依据进行数据去重。
其他文献
行政事业单位的国有资产数额庞大,如何对其进行规范的管控,关系着国家经济运行、社会资源配置等重要问题。本文结合行政、事业单位国有资产管理暂行办法,尝试从行政事业单位
江泽民同志在周恩来诞辰一百周年纪念大会上的讲话中指出,周恩来同志是中国人民的忠实儿子,是中国共产党人的优秀代表。周恩来,这是一个光荣的名字,一个不朽的名字。在他的身
无线传感器网络以其低成本、低功耗、易部署等优势广泛应用于各个领域。在工业环境中,对信号传输的实时性和可靠性要求非常高,但是目前的无线传感器网络主要工作在分布式系统下
随着新政府会计制度的深入实施,其优势和价值也逐步彰显,对节约财政资金开支和更好地分配使用资金都有积极作用。职业学校作为事业单位,也因新政府会计制度施行而受益匪浅。
频繁项集挖掘是关联规则挖掘中的核心,其直接影响了频繁项集的产生效率。针对Eclat算法在挖掘海量数据中的频繁项集时存在的内存和计算资源不足等问题,文中设计了通过分布式倒
车联网在"端-管-云"三层架构的基础上,提供丰富的智能交通综合服务。然而,将数据放置在云端处理和存储,加大了数据被非法用户窃取的风险。为此,提出了基于网络基因GID(Gene IDen
随着我国社会经济的不断发展,地方政府投资项目越来越多,国有地方政府平台公司的投融资范围越来越广,平台数量也在不断增加。为了进一步加强国有地方政府平台公司在政府投资
2019年1月1日起全国政府会计主体单位统一执行新会计制度,通过一年多时间运行,操作中存在许多实务问题,笔者通过与省内多位财务同行进行交流,了解到各单位执行制度的相关情况
目的探讨乙型肝炎(乙肝)患染期5种表型中的大三阳、小三阳的患者的谷丙转氨酶(ALT)、空腹血糖(GLU)含量变化相关性。方法 211例乙肝大小三阳患者,其中大三阳83例,小三阳128例,采用