论文部分内容阅读
在自然语言中存在着大量的非字面用法,如词语的转喻、隐喻等。在这些异常表达中,隐喻用法占了重要的地位。隐喻计算在情感计算、文本蕴含、信息检索以及机器翻译等领域发挥着重要的作用。本文在分析国内外隐喻计算现有的研究成果之上,提出了基于词语相似度与词语抽象度的隐喻识别算法。本文选择了20个常用动词,研究了这些常用词语的隐喻用法。主要内容如下:1、基于词语相似度的动词隐喻识别。在动词的字面用法和隐喻用法中,本文观察到词语的同类用法之间,词语的相似度值比较大;词语的不同用法之间,词语的相似度值比较小。因此,本文将词语的隐喻识别任务转换成词语的字面用法与隐喻用法的二值分类任务,利用《知网》和《同义词词林》提出了基于词语相似度和同义词信息的隐喻识别算法。2、基于词语抽象度的动词隐喻识别。在动词的二值分类中,动词的字面类一般是一些看得见、摸得着的、具体的物质;相反,词语的隐喻类大多是比较难以理解的、抽象的概念和定义。根据这一现象,本文根据《知网》和《同义词词林》提出了基于词语抽象度的隐喻识别算法。3、基于简单启发式规则的动词句子隐喻识别。本文根据动词两边的名词距离动词的相对距离来确定动词的宾语,然后计算宾语的抽象度来识别动词隐喻。4、基于依存句法分析的动词句子隐喻识别。本文利用哈工大信息检索研究室提供的依存句法分析系统(HIT IRLab Shared-Parser)对句子进行句法分析,然后抽取出动词的宾语搭配词,并根据抽取出的搭配词的抽象度来对词语进行隐喻识别。5、具有隐喻处理功能的信息检索系统。鉴于隐喻计算在自然语言处理领域中的重要应用价值,本文将隐喻的识别应用于具体的信息检索领域中,实现了一个能够进行隐喻识别的信息检索系统。6、动词隐喻知识库。本文通过实验算法为以后的研究构建了20个动词的隐喻库,在该隐喻知识库中,包含了词语的字面用法和隐喻用法。本文的研究方法主要是基于语义知识的识别方法。同时,本文也积累了一些数据资源,可以为隐喻的相关研究以及相关领域提供支持。