基于指纹和语义知识表示的中文文档复制检测方法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:ztlzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言文档复制检测技术是信息处理领域中一个重要的研究课题,是保护知识产权和提高信息检索效率的一种有力手段。文档复制检测就是判断一篇给定文档是否抄袭﹑剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换﹑同义词替换以及改变说法重述等方式。本文以前人所研究的文档复制检测理论为基础,研究中文文档复制检测方法,利用指纹和语义知识表示相结合的方法自动发现文档间的重叠信息。首先,分析现有文档复制检测原型系统的功能和优缺点。在此基础上,提出一种基于指纹的中文文档复制检测方法。根据文档复制检测的特点,设定检测粒度参数和噪声粒度参数,采用Hash函数把已经消解噪声的两种检测粒度文本块映射成相应的数值,设计基于窗口的算法从数值序列中提取指纹,并利用定义的公式度量查询文档与数据库中多篇文档之间的重叠度,进而判断查询文档是否为复制文档。其次,提出一种汉语全文无指导词义标注方法。根据知网词典定义和词语词性对应关系对单义词和类别歧义词直接标注正确的词义。对于非类别歧义词和混合歧义词,以真实的应用情况出发,提出一种改进的汉语无指导词义消歧方法。针对现存EM(Expectation Maximization)迭代算法计算量大、收敛缓慢的问题,利用互信息和Z-测试结合的算法选取特征,并通过一种统计学习方法估算初始参数值。再次,提出一种基于概率上下文无关文法的无指导句法分析方法。针对概率上下文无关文法独立性假设这一局限性引入上下文信息,给出新的结合词类和句法范畴共现信息的句法结构树概率评价函数,描述句法分析算法,并利用Inside-Outside算法从未经过标注的语料库中自动获取语法规则概率和结构共现概率,避免了有指导训练方法需要构建大规模标注树库的问题。最后,为了根据句法结构和句子中每个实词的词义推导出能够反映句子意义的形式表示,提出一种基于框架的语义知识表示方法,能够描述词、短语和句子的语义,并且清楚地表示出语义单位之间的层次性和生成性。介绍利用语义知识表示发现同义词替换、语态变化、词性变化和断句等复杂文本复制方式的检测过程,并给出面向语义知识表示的文档重叠性度量方法。实验确定设定参数的最佳取值,并验证本文方法的正确性和有效性。本文提出的基于指纹的中文文档复制检测方法从字符串匹配角度发现文档间的重叠信息,基于语义知识表示的中文文档复制检测方法从语义角度进行研究,通过对汉语句子进行语义分析和语义匹配,真正实现了从自然语言处理的语义层面来解决自然语言文档复制检测的问题。
其他文献
农村低保政策执行中存在的家计核查不清、低保对象评定不公、动态监管不力等问题,影响了低保扶贫的精准性,削弱了制度功能的正向效应。精准扶贫视域下,我国的农村低保制度需
一、以饮食为人生之至乐西方的先哲,苏格拉底也罢,柏拉图、亚力士多德也罢,康德、黑格尔也罢,他们似乎都不大谈到饮食问题,可中国的圣贤、哲人,几乎人人都要谈到这个话题。
在当前国家建设和谐社会的背景下,控制国民经济命脉的各领域信息系统越来越受到重视。需求分析是信息系统开发的起点,对整个开发的成败有着重要的影响。当系统需求存在缺陷时,无
自动人脸识别具有巨大的应用前景,已经成为模式识别、计算机视觉以及信息技术相关学科中活跃的研究领域。过去的几十年中,已经有多种人脸识别方法被提出。本文针对人脸识别中
目的:调查了解基层部队士兵对战伤急救知识的掌握情况,为改进战救训练模式提供依据。方法:选择某陆军2个旅、1个团一线士兵956名,进行战救训练、急救用品、战救知识等内容的
文章指出目前我国外语教学忽视了文化背景知识对语言学习的重要作用,而导致学生外语交际能力的普遍低下;并阐述外语教师应该在教学过程中教给学生足够的文化背景知识及语用原理
一位家庭主妇从北京某超市走出来,手推车上满是各种食品:婴儿奶粉、豆浆、方便面、大豆色拉油……这些食品中可能有相当数量含有转基因成分,但是这位主妇却一点儿也不知道.
针对提出的强化对流式架空地板辐射供暖末端系统,采用数值模拟方法研究了地板表面温度与热流分布,以及供暖房间热环境特征,通过实验研究分析、验证了数值计算模型的可靠性。