论文部分内容阅读
自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环境确定其词义。它属于自然语言处理的底层研究,对机器翻译、信息检索、信息抽取等均具有直接影响。词义消歧属于AI-完全(AI-Complete)问题,迄今为止,一直是困扰计算语言学者的最复杂的问题之一。词义消歧的关键问题是消歧知识的获取和消歧模型的构建,归根到底是知识的获取与利用问题。现有的词义消歧研究工作尚未对依存知识和领域知识的挖掘利用给予足够的重视。本文力求以依存知识和领域知识的挖掘利用为突破口,寻找提高词义消歧性能的方法。本文首先针对特征词选择问题、知识获取问题、领域知识挖掘利用问题,从依存知识和领域知识两个角度出发,提出三种词义消歧方法;而后,提出一种多分类器融合方法对本文所研究的三种词义消歧方法进行融合,以进一步改善消歧效果。本文的主要工作和贡献体现在以下四个方面:针对传统的相似度度量词义消歧方法所存在的消歧特征词选择不准确的问题,提出了基于依存句法树的相似度度量词义消歧方法。传统的消歧特征词选择方法通常采用上下文窗口或者根据直接依存关系,前者易误选近距离的无关噪声词、遗漏远距离的相关特征词;后者,常常只能获得少量消歧特征词,甚至无法获得任何有效特征词。本文提出基于依存句法树的相似度度量词义消歧方法,首先对歧义词所在的句子进行依存句法分析,获取其依存句法树;进而,根据词语在依存句法树上的最短路径,进行消歧特征词的选择与赋权;然后,计算歧义词各个词义与消歧特征词的语义相似度,选择相似度加权累加和最大的词义作为正确词义。实验结果表明,该方法能更为有效地选择消歧特征词,能够改善词义消歧的效果,在Koeling数据集的BNC子集上召回率可达39.52%。针对困扰词义消歧的知识获取瓶颈问题,提出了基于依存适配度的知识自动获取词义消歧方法。该方法充分发挥依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义。该方法基于依存句法分析技术,提出了将依存知识发掘并应用于词义消歧的完整解决方案。实验结果表明,该方法在SemEval2007的Task#7数据集上召回率可达74.53%,能够取得优于已有同类无监督和基于知识库方法的消歧效果。针对基于知识库的词义消歧研究中存在的领域知识挖掘利用不充分问题,提出了基于领域知识的图模型词义消歧方法。该方法将领域知识划分为文本领域知识和词义领域知识两个层次,利用对数似然统计对语料库进行统计分析,获得目标领域的领域关联词,作为文本领域知识;利用WordNet Domain获得词义的领域标注,作为词义领域知识。为了能够将领域知识融入到词义消歧工作,本文提出根据文本领域知识和句子上下文共同构建知识图,并根据词义领域知识对知识图进行调整,从而完成领域知识图的构建。为了避免传统的图结点重要度评分方法的缺陷,本文从关联边权重、双向路径两个角度出发,提出了多种改进图评分方法。利用改进图评分方法对领域知识图中的词义结点重要度进行评分,选择评分最高的词义结点作为正确词义。实验结果表明,基于领域知识的图模型词义消歧方法在Koeling数据集上可取得同类研究的最佳消歧效果。针对传统的多分类器融合词义消歧方法存在的片面性问题,提出了动态自适应概率加权融合方法。现有的多分类器融合研究工作,通常单纯从分类器的整体性能角度或者从消歧样本的个体差异角度考虑融合策略;这种片面性的融合策略顾此失彼,难以取得最优效果。本文通过引入分类器整体性能权重参数和消歧样本的“自信度”权重参数,对概率加权投票法和样本动态自适应加权融合法进行改进,整合两种方法的优点,提出了动态自适应概率加权融合法。实验结果表明,该方法在SemEval2007的Task#7数据集上召回率可达到83.08%,能够取得多分类器融合方法的最优消歧效果。