基于依存和领域知识的词义消歧方法研究

来源 :北京理工大学 | 被引量 : 6次 | 上传用户:popularmp3007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环境确定其词义。它属于自然语言处理的底层研究,对机器翻译、信息检索、信息抽取等均具有直接影响。词义消歧属于AI-完全(AI-Complete)问题,迄今为止,一直是困扰计算语言学者的最复杂的问题之一。词义消歧的关键问题是消歧知识的获取和消歧模型的构建,归根到底是知识的获取与利用问题。现有的词义消歧研究工作尚未对依存知识和领域知识的挖掘利用给予足够的重视。本文力求以依存知识和领域知识的挖掘利用为突破口,寻找提高词义消歧性能的方法。本文首先针对特征词选择问题、知识获取问题、领域知识挖掘利用问题,从依存知识和领域知识两个角度出发,提出三种词义消歧方法;而后,提出一种多分类器融合方法对本文所研究的三种词义消歧方法进行融合,以进一步改善消歧效果。本文的主要工作和贡献体现在以下四个方面:针对传统的相似度度量词义消歧方法所存在的消歧特征词选择不准确的问题,提出了基于依存句法树的相似度度量词义消歧方法。传统的消歧特征词选择方法通常采用上下文窗口或者根据直接依存关系,前者易误选近距离的无关噪声词、遗漏远距离的相关特征词;后者,常常只能获得少量消歧特征词,甚至无法获得任何有效特征词。本文提出基于依存句法树的相似度度量词义消歧方法,首先对歧义词所在的句子进行依存句法分析,获取其依存句法树;进而,根据词语在依存句法树上的最短路径,进行消歧特征词的选择与赋权;然后,计算歧义词各个词义与消歧特征词的语义相似度,选择相似度加权累加和最大的词义作为正确词义。实验结果表明,该方法能更为有效地选择消歧特征词,能够改善词义消歧的效果,在Koeling数据集的BNC子集上召回率可达39.52%。针对困扰词义消歧的知识获取瓶颈问题,提出了基于依存适配度的知识自动获取词义消歧方法。该方法充分发挥依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义。该方法基于依存句法分析技术,提出了将依存知识发掘并应用于词义消歧的完整解决方案。实验结果表明,该方法在SemEval2007的Task#7数据集上召回率可达74.53%,能够取得优于已有同类无监督和基于知识库方法的消歧效果。针对基于知识库的词义消歧研究中存在的领域知识挖掘利用不充分问题,提出了基于领域知识的图模型词义消歧方法。该方法将领域知识划分为文本领域知识和词义领域知识两个层次,利用对数似然统计对语料库进行统计分析,获得目标领域的领域关联词,作为文本领域知识;利用WordNet Domain获得词义的领域标注,作为词义领域知识。为了能够将领域知识融入到词义消歧工作,本文提出根据文本领域知识和句子上下文共同构建知识图,并根据词义领域知识对知识图进行调整,从而完成领域知识图的构建。为了避免传统的图结点重要度评分方法的缺陷,本文从关联边权重、双向路径两个角度出发,提出了多种改进图评分方法。利用改进图评分方法对领域知识图中的词义结点重要度进行评分,选择评分最高的词义结点作为正确词义。实验结果表明,基于领域知识的图模型词义消歧方法在Koeling数据集上可取得同类研究的最佳消歧效果。针对传统的多分类器融合词义消歧方法存在的片面性问题,提出了动态自适应概率加权融合方法。现有的多分类器融合研究工作,通常单纯从分类器的整体性能角度或者从消歧样本的个体差异角度考虑融合策略;这种片面性的融合策略顾此失彼,难以取得最优效果。本文通过引入分类器整体性能权重参数和消歧样本的“自信度”权重参数,对概率加权投票法和样本动态自适应加权融合法进行改进,整合两种方法的优点,提出了动态自适应概率加权融合法。实验结果表明,该方法在SemEval2007的Task#7数据集上召回率可达到83.08%,能够取得多分类器融合方法的最优消歧效果。
其他文献
网络教育是实现教育信息化必不可少的手段,也是提高教学质量的有效途径。疫情期间,线上教学成为一种新的教学方式。如何优选平台?如何整合资源,优化教学?如何创新线上教学的模式?如何检测学生的学习效果?这些都是一线教师需要研究的新问题。笔者就近期语文线上教学实践中存在的问题,寻找解决措施,力求最优效果。
<正>安塞油田(长庆油田第一采油厂)隶属于中国石油天然气股份有限公司长庆油田分公司,管理着我国陆上最早开发的特低渗亿吨级整装油田。安塞油田位于鄂尔多斯盆地中部,横跨陕
业务天生就具有项目式特点的企业,如工程公司、设计院、科研院所、IT服务类企业,在当今的经济社会里占有很高的比例和重要的地位。同时,由于竞争的加剧,也使得很多传统业务形式的
使用Logistic方程、直线方程、对数方程、多项式方程、乘幂式方程和指数式方程6种理论生长方程拟合不同立地条件下柞树树高生长过程,从中选择最优的树高生长方程。研究结果显
企业简介中航工业郑飞(简称郑飞)隶属于中国航空工业集团公司,是我国航空武器悬挂发射系统和地面综合保障系统设计、研发、制造的骨干企业。十年磨一剑,经营规模年均增长53%,利润年
通过分析我国电子竞技产业现状,发现随着网络迅速发展,电子竞技产业水涨船高,同时带动电子商务、直播平台等周边产业迅速发展。但产业本身仍然存在管理体制混乱、社会接受度
科学发展观既是重大战略思想,又是发展的科学世界观和方法论,具有全面、根本和长远的指导意义。企业只有不断提高运用科学发展观的水平,把学习实践活动常态化,才能为科学发展
弯道超越是赛车运动中的一个常见用语,意思是指车手利用弯道超越对手。弯道是一个风险和机遇同样凸显的特殊地带,而在弯道实现超越,既需要精准的把握,更需要勇气和决心。利用
企业要想长期生存与发展,必须根据市场的变化作出快速响应,因此,企业的政策乃至组织结构应该进行相应调整。然而,对政策及组织结构的频繁调整,会导致企业员工包括许多管理人员难于