论文部分内容阅读
自然语言文档复制检测技术是信息处理领域中一个重要的研究课题,是保护知识产权和提高信息检索效率的一种有力手段。文档复制检测就是判断一篇给定文档是否抄袭﹑剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换﹑同义词替换以及改变说法重述等方式。本文以前人所研究的文档复制检测理论为基础,研究中文文档复制检测方法,利用指纹和语义知识表示相结合的方法自动发现文档间的重叠信息。首先,分析现有文档复制检测原型系统的功能和优缺点。在此基础上,提出一种基于指纹的中文文档复制检测方法。根据文档复制检测的特点,设定检测粒度参数和噪声粒度参数,采用Hash函数把已经消解噪声的两种检测粒度文本块映射成相应的数值,设计基于窗口的算法从数值序列中提取指纹,并利用定义的公式度量查询文档与数据库中多篇文档之间的重叠度,进而判断查询文档是否为复制文档。其次,提出一种汉语全文无指导词义标注方法。根据知网词典定义和词语词性对应关系对单义词和类别歧义词直接标注正确的词义。对于非类别歧义词和混合歧义词,以真实的应用情况出发,提出一种改进的汉语无指导词义消歧方法。针对现存EM(Expectation Maximization)迭代算法计算量大、收敛缓慢的问题,利用互信息和Z-测试结合的算法选取特征,并通过一种统计学习方法估算初始参数值。再次,提出一种基于概率上下文无关文法的无指导句法分析方法。针对概率上下文无关文法独立性假设这一局限性引入上下文信息,给出新的结合词类和句法范畴共现信息的句法结构树概率评价函数,描述句法分析算法,并利用Inside-Outside算法从未经过标注的语料库中自动获取语法规则概率和结构共现概率,避免了有指导训练方法需要构建大规模标注树库的问题。最后,为了根据句法结构和句子中每个实词的词义推导出能够反映句子意义的形式表示,提出一种基于框架的语义知识表示方法,能够描述词、短语和句子的语义,并且清楚地表示出语义单位之间的层次性和生成性。介绍利用语义知识表示发现同义词替换、语态变化、词性变化和断句等复杂文本复制方式的检测过程,并给出面向语义知识表示的文档重叠性度量方法。实验确定设定参数的最佳取值,并验证本文方法的正确性和有效性。本文提出的基于指纹的中文文档复制检测方法从字符串匹配角度发现文档间的重叠信息,基于语义知识表示的中文文档复制检测方法从语义角度进行研究,通过对汉语句子进行语义分析和语义匹配,真正实现了从自然语言处理的语义层面来解决自然语言文档复制检测的问题。