基于汉字部件直方图的文本复制检测技术研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:wxj3177
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本复制检测技术是文本相似度计算的一项基础应用,在网页去重、知识产权保护、搜索引擎、数字图书馆等方面发挥着重要作用。但是针对中文文本的复制检测技术起步较晚,且由于中文文本的精深复杂,中文文本复制检测技术更难于实现。因此,该领域值得我们进一步开展研究和探讨。本文首先对该领域内基于字符匹配和基于词频统计的两类复制检测算法做了较为详细的论述,归纳和总结了现有算法各自的特点和不足。针对其文本特征表示向量高维且稀疏、相似度计算复杂、资源利用率低等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测模型。论文的主要工作如下:1)提出了以汉字部件直方图作为文本指纹特征的提取方法。首先根据汉字的结构特征和汉字的数学表达式理论将整个文本中出现的所有汉字进行部件拆分,接着分别对每种汉字部件进行计数统计,通过概率计算公式得到每种汉字部件在该文本中出现的概率,然后以汉字的部件编号为横坐标,以部件概率为纵坐标,做出统计图,称为文本汉字部件直方图,最终以此汉字部件直方图作为该文本的指纹特征标识。2)提出了通过计算部件直方图间的距离匹配值作为待检测文本之间复制检测结果的判断标准。本文分别设计了4种距离对比标准进行文本部件直方图间的距离匹配值运算,并通过实验分析最终选取了最合适的巴氏距离作为衡量直方图相似度距离的计算公式。3)采集了一定规模的数据源进行算法的模拟和实现。本文通过搜集400个词条文档作为数据源开展实验,实验结果表明基于汉字部件直方图的文本复制检测算法具有较好的查准率、召回率和F1值,同时在与基于余弦定理和基于Jaccard系数的复制检测方法对比实验中也进一步验证,新的复制检测方法不仅在时间复杂度和空间复杂度方面具有优势,在综合评价指标F1值上也具有可取性。
其他文献
近十年来,传统的数据库系统即联机事务处理系统(OLTP)作为数据管理手段,主要用于事务处理,但OLTP已不能满足终端用户对数据库查询分析的要求,SQL对大型数据库的简单查询也不
随着信息技术的深入发展,许多金融企业都在自己的业务服务领域和日常工作中引入了信息技术以提高生产力,增强竞争力。报表是金融行业中用于数据统计和风险分析的重要工具,它
随着计算机技术的发展,互联网不断普及并已成为日常生活中获取知识和资源的重要途径,越来越多的人通过搜索引擎在互联网中寻找信息,但是由于传统的搜索引擎对信息资源缺少统
大数据时代的到来,使得数据量、数据复杂度和数据的处理方式发生很大变化,云计算被看作是继PC、Internet之后的第三次信息化革命,反应出“网络即是计算机”的思想,它把海量软
VHDL是描述数字系统的硬件描述语言,C是编写顺序语句程序的高级编程语言。由于C语言结构清晰,可扩充性强,因此将C语言描述的源代码编译为VHDL描述的代码,用具有顺序特征的C语
大多数企业的信息系统经过多年建设后,已经形成若干相对独立,功能各不相同的应用系统。构件是企业分布式应用的基本构成单元,在企业生产和遗留系统中存在着大量功能构件,如何
工作流技术已经在各个行业中得到了广泛的应用。随着企业业务的不断扩大,工作流平台必须能够准确、高效的响应应用系统的调用请求,要具有支持大量用户并发访问的能力。因此,
水流模拟一直是计算机图形学中最具挑战性的研究方向之一。目前,水流模拟方面研究大多在如何简化Navier-Stokes方程方面着手,由于这些方法需要计算水流每个质点在各个时刻的状
矿用隔爆馈电开关是煤矿井下配电系统的关键设备,作为配电开关,用于含有瓦斯或煤尘等爆炸危险环境的矿井中,控制和保护低压供电网络。其性能好坏直接影响着煤矿井下的生产安全和生产效率,而目前国内馈电开关普遍存在集成度低、可靠性差、智能监控水平低等缺点。本课题将嵌入式网络控制系统应用到馈电开关中,通过对矿山供电系统工作原理、真空馈电开关工作原理以及基于EasyARM2200(Philips LPC2210为
XML数据的可扩展性和自我描述性使得它成为当前网络上数据传输的主要形式,但是它对数据的处理能力却相当的有限,实现XML存储为关系数据库以后,就可以利用关系数据库所带有的