论文部分内容阅读
篇章分析(Discourse Analysis)是自然语言处理的一个核心研究方向,其主要任务是从整体层次上分析出篇章所蕴含的各种结构及其构成单元之间的语义关系,并利用上下文来理解篇章。篇章分析对机器翻译、问答系统、自动摘要,甚至篇章生成等自然语言处理应用有着十分重要的意义。篇章关系的判定是篇章分析的核心组成部分。根据是否包含连接词,篇章关系可以分成显式和隐式两大类。连接词作为句子衔接的逻辑工具,能够直接表述篇章单元内部的语义关系、结构特征,对于篇章结构的分析有着不可忽视的作用。本文主要关注中英文显式篇章关系分析中的连接词识别子任务,具体开展的研究工作包括:1)构建架构统一的基于条件随机场(CRF)模型的中英文连接词识别平台。将连接词识别看作序列化标注任务,基于英文的PDTB语料和中文的CDTB语料,使用CRF构建了中英文连接词识别平台,并通过各种实验分析了不同标注集合和特征模板对于中英文连接词识别性能的影响。2)分析中英文连接词的差异提出了基于双语信息的中文连接词识别方法。针对中文连接词识别性能低和表达方式多样等问题,设计并实现了一个融入双语信息的中文连接词识别方法,并通过对比实验验证了方法的有效性。3)构建BiLSTM+Self Attention+CRF框架的中文连接词识别平台。为了降低对人工特征提取的依赖,借助字粒度表示,利用BiLSTM进行上下文序列编码,再使用融入自注意力机制的CRF进行解码,构建了完整的中文连接词识别平台,并通过实验验证了方法的有效性。4)设计并实现了一个连接词对比分析平台。该平台可用于不同模型对同一语言进行连接词自动识别结果的对比分析,也可以针对中英文可比较语料进行中英文连接词识别后的双语识别结果的对比分析。上述工作的开展,一方面形成了中英文统一的连接词识别框架,并借助多种方法提升了中文连接词识别的性能;另一方面实现的对比分析平台可用于后续多种模型的性能分析以及中英文连接词识别差异的分析,为后续更好地借助双语信息进行显式、隐式篇章关系的分析奠定了基础。