论文部分内容阅读
词语是自然语言处理的最小单位,词语相似度研究在自然语言处理的各个领域占有非常重要的地位,同时作为人工智能领域中一项重要应用,并被广泛应用于信息检索、词义消歧、机器翻译、语音自动摘要、分类和聚类等方面。特别是在云时代的来临,大数据越来越受人们关注,人们逐渐习惯于利用计算机进行数字化处理数据,因此词语相似度研究前景越来越广阔。 本文主要分析基于语义资源的词语相似度算法,就现有的语义资源中,只有同义词词林和知网比较规范,内容完备,结构合理,更容易用于科学研究。同义词词林是一种具有编码的层次结构树可以通过语义距离,信息量,或者利用层次深度,区域密度来计算两个词语的相似度。知网主要使用概念与义原的结构进行词语相似度计算,通过化整为零的方式,将概念分解为多个义原来进行计算。通过对经典算法具体分析,发现其中存在一定局限性,本文作者针对四个问题分别提出优化算法:第一,提出词林和知网的综合加权算法(CWA)解决在这两个语义资源中词语相似度算法太过于依赖专家权威,过于主观性的问题;第二,提出词林的信息量应用在知网上的算法(AIA)解决知网中的相同的义原结构的词语,相似度区分偏差的问题;第三,提出基于词林的义原相似度算法(CS)解决具有不同第一基本义原的词语在知网上的相似度区分不够准确的问题;第四,提出词林和知网的词语相似度传递性算法(TA)解决不在同一棵编码树上的词语在词林中没有进行区分相似度的问题。 通过分析具体实验数据:CWA算法可以有效稳定词语相似度,可以在一定程度修复主观性问题;AIA算法可以将明显不具有相同词语相似度的同义原结构的词语分辨出来;CS算法可以有效区分一个词语对于多个不具有相同第一基本义原的词语的相似度;TA算法对不在同一棵编码书上的词语相似度给出了准确相似度,有效地做出了区分。