基于领域优先选择策略的词义消歧研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zengyufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类语言中普遍存在歧义性,这给自然语言处理技术带来了困难。作为在词语级别消除语言歧义性的方法,词义消歧旨在根据多义词所处的上下文环境来确定其词义。解决词义消歧问题对于机器翻译和内容分析等上层应用具有重要意义。词义消歧技术通常针对生活中的通用文本,需要利用上下文知识和构建消歧模型实现消歧。特定领域文本的词义消歧还面临着领域适应性问题,现有的词义消歧研究工作并未对领域知识的挖掘和利用给予足够的重视。随着面向特定领域的词义消歧研究的兴起,如何充分挖掘并利用领域知识改善词义消歧方法的性能,成为一个迫切需要解决的问题。基于上述问题,本文力求以领域知识的挖掘和利用为突破口,寻找提高词义消歧性能的方法。本文的主要工作主要包含以下三个方面:1.针对目前消歧算法提取的领域关联词质量不高导致消歧召回率低的问题,提出一种基于改进的对数似然比的词义消歧方法PPRank-LLRF(LogLikelihood Ratio and word Frequency,LLRF)。融合对数似然比与词频结合的方法,提取与目标领域相关度更高的关联词,并引入图模型,通过Personalized PageRank算法判定歧义词的词义。使用Koeling数据集测试词义消歧方法的性能,和改进前方法相比,Sports领域的消歧召回率提高了 1.81%,验证了所提方法的有效性。2.针对现有的领域消歧中的语义理解方法对领域判定不足的问题,提出一种基于领域优先选择策略的语义理解方法(Field Preference Strategy,FPS)。综合考虑词义领域和文档领域信息,判定歧义句的真实领域,并选择相应的消歧上下文构建图模型来表示语义。使用Koeling数据集测试词义消歧方法的性能,与改进前方法相比,在Sports和Finance领域数据集上召回率分别提高了 0.11%和0.31%,验证了领域优先选择策略的可行性和有效性。3.针对通用文本中领域知识利用不足的问题,对FPS算法进行领域泛化,提出一种改进的领域优先选择策略(Improved Field preference strategy,IFPS),并引入扩展的领域知识,以适应通用文本词义消歧任务。使用Koeling数据集中的BNC实例测试词义消歧方法的性能,与改进前方法相比,词义消歧的召回率提高了 0.11%,验证了 IFPS方法的有效性。
其他文献
随着计算机科学技术的不断发展,虚拟现实(Virtual Reality,VR)技术以及增强现实(Augmented Reality,AR)技术的三维虚拟场景(3D Virtual Environments)已经广泛用于电商行业的AR试穿、虚拟看房、在线家装、网络游戏等各行各业。相比于传统的2D媒体,基于3D模型的三维场景可以让用户在完成更丰富交互操作的同时,获得更好地沉浸式的体验。高质量的三维场景
目的:修订Litman等人编制的认知好奇量表(Epistemic Curiosity Scale,ECS),并考察其在我国初中生群体中的适用性.方法:首先对164名初中生进行预测试,然后对830名初中生正式测试,进行中文版ECS的项目分析、效度检验与内部一致性信度分析,并从中抽取93人进行间隔4周的重测信度检验.最后对594名初中生初步使用该量表进行应用分析.结果:中文版初中生ECS的α系数为0.87,间隔四周的重测组内相关系数为0.87(n=93).量表的两因子结构模型包括剥夺型认知好奇与兴趣型认知好奇
网络功能虚拟化(Network Function Virtualization,NFV)技术由于能大幅度降低运营商的OPEX和CAPEX,提升网络部署的灵活性、有效性,缩短部署时间,被认为是未来网络的一种革命性技术。虚拟网络功能(Virtual Network Function,VNF)作为NFV架构中重要的组成部分,极大地提高了网络的动态性和灵活性,但是同时也给管理和部署VNF带来了巨大的挑战。
目的:对学校归属感(Psychological Sense of School Membership,PSSM)量表进行中文修订,检验其在中国中小学生中的信效度及其跨性别、跨年级的测量等值性.方法:应用中文版学校归属感量表对湖南省25所中小学三至十二年级4628名学生进行施测;以特拉华校园氛围量表(学生卷)(Delaware School Climate Scale-Student,DSCS-S)、病人健康问卷抑郁量表(Patient Health Questionnaire-9,PHQ-9)为效标工具检
目的:检验关系需求满足量表(Relational Needs Satisfaction Scale,RNSS)在中国文化背景下的信度、效度以及跨性别测量等值性.方法:采用RNSS中文版对1393名大学生进行调查,以生活满意度量表(SWLS)、人际需求问卷(INQ)以及关系问卷(RQ)为效标,间隔4周后,随机抽取64名大学生进行重测.结果:RNSS中文版包括真实性、支持和保护、影响力、共享经验、主动性5个因子;验证性因素分析显示五因素模型拟合良好(x2/df=2.27,CFI=0.92,TLI=0.90,R
目的:考察中文版牛津功利主义量表(Oxford Utilitarianism Scale,OUS)的信度和效度指标.方法:对597名中国被试施测翻译后的中文版OUS量表,选取外显功利主义观念、“牺牲”道德困境、精神病态量表、共情关注量表、认知需求量表、捐赠态度问卷作为效标量表.结果:①量表的各个项目具有良好的区分度,各项目得分和总分相关在0.42~0.83之间;②通过探索性因素分析得到无偏利益和工具性伤害2个因子,累积方差贡献率为53.72%;③验证性因素分析表明,两因子模型的拟合指数良好(x2/df=-
目的:检验行为情绪调节问卷(Behavioral Emotion Regulation Questionnaire,BERQ)中文版在我国青少年群体中应用的信效度.方法:对2900名初、高中学生施测,选取抑郁焦虑压力量表(DASS-21)进行效标效度检验.结果:量表各条目具有良好的同质性和区分度;探索性因素分析结果支持BERQ具有寻求分心、退缩、主动接近、寻求社会支持和无视5个维度;验证性因素分析结果表明BERQ五因子模型拟合良好,各条目因子载荷在0.59~0.89之间;退缩和无视与DASS-21显著正相
目的:了解在新冠肺炎疫情期间青少年手机等电子产品成瘾现状,并探究父母焦虑/抑郁影响青少年手机等电子产品成瘾的内部作用机制.方法:采用焦虑自评量表、抑郁自评量表、亲子冲突量表、亲子亲合量表和手机等电子产品成瘾量表对1561名初一-高三学生及其父母进行问卷调查.结果:(1)疫情期间,青少年手机等电子产品成瘾检出率为16.5%.(2)父母焦虑、父母抑郁、亲子冲突、青少年焦虑、青少年抑郁、青少年手机等电子产品成瘾两两变量之间均呈显著正相关,亲子亲合与其他变量之间均呈显著负相关.(3)父母焦虑/抑郁不直接预测青少年
随着三维设备的逐渐普及,深度学习中针对三维数据如体素数据、多视图数据和点云数据的研究应运而生,因此作为基于三维数据的感知任务中的关键技术——形状识别也成为了当前计算机视觉的研究热点之一。数据形式驱动研究方法,三维数据的激增鼓励了各种基于三维数据的深度学习方法。然而研究发现,体素数据在处理过程中需要考虑分辨率和算力等问题,多视图数据可能出现全局特征感知缺失和局部信息冗余的问题,至于点云数据使用最为广
目的:探讨自我污名、自我效能感、歧视知觉与听力障碍大学生抑郁的关系.方法:采用追踪设计,在第一阶段(T1)使用残疾自我污名量表,第二阶段(T2)使用一般自我效能感量表、残疾人歧视知觉问卷以及抑郁自评量表,对325名听力障碍大学生进行问卷调查.结果:①T1自我污名、T2歧视知觉与T2抑郁显著正相关,T2自我效能感与T2抑郁显著负相关.②T2自我效能感和T2歧视知觉在T1自我污名与T2抑郁间起多重中介作用.结论:自我污名既可以直接纵向预测听力障碍大学生的抑郁症状,也可以通过自我效能感、歧视知觉的间接作用纵向预