论文部分内容阅读
句子相似度计算在自然语言处理领域中占有基础而重要的地位。提高句子相似度计算的准确率对于提高自动问答,信息检索,机器翻译等系统的效率起到重要作用。本文在分析了国内外研究现状的基础上,以汉语框架网为基础,提出用框架语义依存图模型来表示一个句子的框架语义信息,并以框架语义依存图的相似度为依据来计算两个句子的语义相似度。同时,通过对框架元素进行多词块标注来提取框架元素的语义核心词,从而把框架语义依存图转化为框架核心语义依存图。具体来说,本文的工作主要包括:依据英语核心依存图给出了汉语框架语义依存图模型。它是基于汉语框架网对汉语句子核心语义结构的一种形式化表示。提取一个句子的框架语义依存图就意味着抽取了这个句子的基于框架网的语义骨架。在建立了汉语框架网络和依存图的数学模型的基础上,给出了汉语框架网上的语义度量方法。为了计算句子语义相似度,分别计算了依存图相似度和外围成分相似度,最后以它们的凸组合作为两个句子的相似度。同时,提出了度量一个相似度计算算法好坏的区分度的概念;为了计算一个框架元素在一个框架中的重要程度,本文给出了框架元素对框架的支持度的概念。实验表明基于框架依存图的句子相似度计算理论比基于HowNet的正确率有15%的提高。提出了基于多词块标注的框架元素语义核心词识别和提取方法,通过对比分析,给出了多词块和框架元素的融合策略,并建立了在多词块标注基础上提取框架元素语义核心词的规则集。基于6771个框架元素上的实验结果显示,采用本文的方法和规则集提取框架元素核心词的平均准确率和覆盖率分别为95.58%和82.91%;在框架核心语义依存图上计算句子的相似度比在框架语义依存图上计算的准确率和召回率分别提高了1.33%和2.2%。