基于匹配统计算法的文本复制检测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:alanlee75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和网络数据库资源的日益丰富,海量的信息以及巨大的搜索功能,让论文抄袭变得轻而易举。针对抄袭行为越来越严重这一现象,反论文抄袭的研究应运而生。文本复制检测将让那些有抄袭企图者不敢贸然付诸行动。文本复制检测系统能够为用户识别检测对象是否为复制文本提供决策支持。 本文研究了文本复制检测系统的基本原理及主要的检测策略和检测算法。在复制检测策略研究方面,主要分析了哈希断点分块检测策略,构建了搜索引擎模块,对不同长度的文本块计算哈希值,进行对比实验,以确定文本块边界。在复制检测算法研究方面,着重分析了基于字符串比较的匹配统计算法,特别是后缀树和后缀向量匹配统计算法。针对后缀树算法存在的“内存瓶颈’’问题,本文提出了一种基于紧凑后缀向量表示的匹配统计算法,采用动态节点存储与初始字符串相关的节点信息,直接从字符串读取边标记。紧凑后缀向量匹配统计算法不仅节约存储空间,而且消除了后缀树匹配统计算法中的一些冗余比较。 最后,构建了文本复制检测原型系统,对匹配引擎模块和搜索引擎模块进行测试,设计仿真实验比较了紧凑后缀向量匹配统计算法与后缀树匹配统计算法。实验结果表明与已有的后缀树复制检测算法相比,紧凑后缀向量匹配统计算法在测试文档集上表现出较好的运行速度和空间效率。
其他文献
随着经济全球化和市场构成要素的不断发展,当今企业所依存的环境主要有以下变化趋势:顾客需求的个性化和多样化,市场条件变化的不确定性增强,企业间竞争程度的加剧以及由于技术进步等原因而造成的产品生命周期日趋缩短等。与此同时,随着市场由卖方向买方的转变,顾客对产品质量的要求也越来越高,至今,质量已经成为构成企业产品市场竞争力的关键因素。最终消费产品质量的高低取决于其形成过程所有工序,而并非供应链最后环节企
[中图分类号]:I106 [文献标识码]:A  [文章编号]:1002-2139(2019)-33--01  忒提斯是希腊神话老海神涅柔斯之女。在《伊利昂纪》中,与其他女神如赫拉、雅典娜、阿弗洛迪忒等在特洛伊战争中搅动风云、参与意识强烈的形象相比,忒提斯存在感和辨识度相对较弱,但她与色萨利国王佩琉斯婚礼上的金苹果事件,是引发特洛伊战争的导火索;战争成败的关键人物阿基琉斯是她的儿子,这些因素潜移默化
期刊
数控技术是用数字信心对机械运动和工作过程控制的技术,数据技术的应用不但给传统制造业带来了革命性的变化,更使制造业成为工业化的象征。 CNC technology is a technology
电子商务环境下,随着全球化竞争的日趋激烈,打破传统的职能型企业,铸造快速响应的、实时的流程型企业成为了企业日益迫切的需求,然而以往实施流程再造和管理的IT思想、方法、技术
新闻和传媒事业是党和政府重要的舆论工具,这就决定了新闻与人们的意志呼吸相关,与社会息息相通。要及时反映人民的要求和呼声,把握正确的舆论导向,为政治文明、精神文明和物
摘 要:《守望灯塔》是英国女作家詹妮特·温特森的一部小说,2004年度被评为“21世纪年度最佳外国小说”。小说用独特的叙事手法讲述了一个叫银儿的孤儿和一个叫普尤的灯塔看守人之间的故事。另外,小说还体现了丰富的生态主义思想。本文从生态批评的视角出发,分别从自然生态,社会生态,和精神生态三个方面来解读这部小说,体会其中的生态意义。  关键词:《守望灯塔》;自然生态;社会生态;精神生态  作者简介:邸薇
在鹤庆石宝山北部有一座巍峨陡峭的大青山。去年4月25日,大青山突然起火,山下的柳绿河村村民们在村党支部书记洪树银带领下,上山与烈火展开了殊死搏斗。经过一天的奋力激战,
国际著名报人普利策在论及新闻工作的重要性时,曾形象地把一个国家比作是一条航行在大海上的船,而把新闻记者比作是船头的了望者。在他看来,新闻记者所从事的新闻工作,如同在
摘 要:《欧也妮·葛朗台》是法国19世纪批判现实主义大师巴尔扎克的代表作,塑造了世界文学史上著名的守财奴葛朗台的形象。文章从典型环境描写、典型形象塑造、细节描写三个方面分析了巴尔扎克的现实主义创作特征。  关键词:《欧也妮·葛朗台》;典型环境;典型形象;细节描写  作者简介:荆煜君(1969-),女,郑州铁路职业技术学院副教授。  [中图分类号]:I106 [文献标识码]:A  [文章编号]:10
摘 要:托尼·莫里森是美国文学史上一位杰出的非裔女作家,《所罗门之歌》是她创作的第三部作品,讲述了主人公奶娃从困惑走向成熟的成长过程。本文致力于从成长小说视角对文本进行分析,以深化对文本的解读。  关键词:《所罗门之歌》;成长小说;引路人;顿悟  [中图分类号]:I106 [文献标识码]:A  [文章编号]:1002-2139(2019)-33--02  托尼·莫里森是美国文学史上第一个获得诺贝尔