中英文篇章关系连接词识别及对比分析平台设计与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dx3386136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章分析(Discourse Analysis)是自然语言处理的一个核心研究方向,其主要任务是从整体层次上分析出篇章所蕴含的各种结构及其构成单元之间的语义关系,并利用上下文来理解篇章。篇章分析对机器翻译、问答系统、自动摘要,甚至篇章生成等自然语言处理应用有着十分重要的意义。篇章关系的判定是篇章分析的核心组成部分。根据是否包含连接词,篇章关系可以分成显式和隐式两大类。连接词作为句子衔接的逻辑工具,能够直接表述篇章单元内部的语义关系、结构特征,对于篇章结构的分析有着不可忽视的作用。本文主要关注中英文显式篇章关系分析中的连接词识别子任务,具体开展的研究工作包括:1)构建架构统一的基于条件随机场(CRF)模型的中英文连接词识别平台。将连接词识别看作序列化标注任务,基于英文的PDTB语料和中文的CDTB语料,使用CRF构建了中英文连接词识别平台,并通过各种实验分析了不同标注集合和特征模板对于中英文连接词识别性能的影响。2)分析中英文连接词的差异提出了基于双语信息的中文连接词识别方法。针对中文连接词识别性能低和表达方式多样等问题,设计并实现了一个融入双语信息的中文连接词识别方法,并通过对比实验验证了方法的有效性。3)构建BiLSTM+Self Attention+CRF框架的中文连接词识别平台。为了降低对人工特征提取的依赖,借助字粒度表示,利用BiLSTM进行上下文序列编码,再使用融入自注意力机制的CRF进行解码,构建了完整的中文连接词识别平台,并通过实验验证了方法的有效性。4)设计并实现了一个连接词对比分析平台。该平台可用于不同模型对同一语言进行连接词自动识别结果的对比分析,也可以针对中英文可比较语料进行中英文连接词识别后的双语识别结果的对比分析。上述工作的开展,一方面形成了中英文统一的连接词识别框架,并借助多种方法提升了中文连接词识别的性能;另一方面实现的对比分析平台可用于后续多种模型的性能分析以及中英文连接词识别差异的分析,为后续更好地借助双语信息进行显式、隐式篇章关系的分析奠定了基础。
其他文献
为提高西安城市供水能力以及供水系统应对风险的能力,建设应急水源地是保证西安市城市供水较为现实的选择之一。将研究区的地下水划分为第四系松散岩类孔隙潜水和第四系松散
我国是世界上第一产煤大国,煤炭在我国能源生产中占重要地位。随着国民经济的发展,对煤炭的需求量将越来越大。 但是,地下煤炭资源采出后,破坏了原有的地质平衡条件,引起采空
文中通过级配分析、击实试验,分析了高液限粘土路基填土的物理力学特性和压实特性。认为现行以压实度为指标的压实控制标准不完备,是引起公路病害的主要原因之一。建议引入空气
滑坡监测工作近年来有较大发展,不仅在理论上,而且在方法上均有突破,本文提出滑坡监测应以位移变形为主,以应力和强度为辅的现场监测系统的观点,指导在动态条件下建立对位移和应变
采用重氮化法,将半抗原磺胺间甲氧嘧啶(SMM)与载体牛血清白蛋白(BSA)和卵清白蛋白(OVA)偶联,制得磺胺间甲氧嘧啶全抗原SMM—BSA和SMM—OVA。通过其紫外扫描光谱、SDS—PAGE凝胶电泳试
日前,北京市房协结合北京市住建委网站数据及市场监测情况发布数据显示,10月北京住房成交量总体平稳回落,新建商品住房成交均价2.08万元/平方米,环比下降0.8%,二手住房也出现了大幅度
【正】 当前,在我国关于预审的概念众说纷纭。对预审概念的探讨和研究,有利于我国的预审理论建设。为了给预审下一个科学的定义,笔者认为,有必要弄清我国预审具有哪些特有属
南京市房屋安全鉴定处成立于1991年3月。2006年12月5日《南京市城市房屋安全管理条例》正式颁布,为加强全市房屋安全管理工作,增设南京市房屋安全管理处,与南京市房屋安全鉴定处
为深入了解现代化城市建设和旅游业开发对生态环境带来的负面影响程度.以兰州市市区和近郊7个生态旅游区为研究对象,采用样线法和样方法,对其生物多样性和环境现状进行调查.
给出了图C3m×C3n、C4m×C4n的一种全染色方法,并证明了该染色是邻点强可区别的,从而得到了C3m×C3n、C4m×C4n的邻点强可区别的全色数:Хast(C3m×C3n)=6、