中英文篇章关系连接词识别及对比分析平台设计与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户：dx3386136

【摘要】

：

篇章分析(Discourse Analysis)是自然语言处理的一个核心研究方向,其主要任务是从整体层次上分析出篇章所蕴含的各种结构及其构成单元之间的语义关系,并利用上下文来理解篇章

【作者】

：

朱登峰

【出处】

：

苏州大学

【发表日期】

：

2018年01期

【关键词】

：

连接词识别序列化标注双语信息自注意力机制对比分析平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

篇章分析(Discourse Analysis)是自然语言处理的一个核心研究方向,其主要任务是从整体层次上分析出篇章所蕴含的各种结构及其构成单元之间的语义关系,并利用上下文来理解篇章。篇章分析对机器翻译、问答系统、自动摘要,甚至篇章生成等自然语言处理应用有着十分重要的意义。篇章关系的判定是篇章分析的核心组成部分。根据是否包含连接词,篇章关系可以分成显式和隐式两大类。连接词作为句子衔接的逻辑工具,能够直接表述篇章单元内部的语义关系、结构特征,对于篇章结构的分析有着不可忽视的作用。本文主要关注中英文显式篇章关系分析中的连接词识别子任务,具体开展的研究工作包括:1)构建架构统一的基于条件随机场(CRF)模型的中英文连接词识别平台。将连接词识别看作序列化标注任务,基于英文的PDTB语料和中文的CDTB语料,使用CRF构建了中英文连接词识别平台,并通过各种实验分析了不同标注集合和特征模板对于中英文连接词识别性能的影响。2)分析中英文连接词的差异提出了基于双语信息的中文连接词识别方法。针对中文连接词识别性能低和表达方式多样等问题,设计并实现了一个融入双语信息的中文连接词识别方法,并通过对比实验验证了方法的有效性。3)构建BiLSTM+Self Attention+CRF框架的中文连接词识别平台。为了降低对人工特征提取的依赖,借助字粒度表示,利用BiLSTM进行上下文序列编码,再使用融入自注意力机制的CRF进行解码,构建了完整的中文连接词识别平台,并通过实验验证了方法的有效性。4)设计并实现了一个连接词对比分析平台。该平台可用于不同模型对同一语言进行连接词自动识别结果的对比分析,也可以针对中英文可比较语料进行中英文连接词识别后的双语识别结果的对比分析。上述工作的开展,一方面形成了中英文统一的连接词识别框架,并借助多种方法提升了中文连接词识别的性能;另一方面实现的对比分析平台可用于后续多种模型的性能分析以及中英文连接词识别差异的分析,为后续更好地借助双语信息进行显式、隐式篇章关系的分析奠定了基础。

其他文献

西安市涝渭应急水源地模拟研究

为提高西安城市供水能力以及供水系统应对风险的能力,建设应急水源地是保证西安市城市供水较为现实的选择之一。将研究区的地下水划分为第四系松散岩类孔隙潜水和第四系松散

期刊

西安市应急水源地数学模型潜水井承压水井Xi′an cityemergency water source areamathematical modeld

我国东北地区采煤塌陷灾害的预测及治理途径

我国是世界上第一产煤大国,煤炭在我国能源生产中占重要地位。随着国民经济的发展,对煤炭的需求量将越来越大。但是,地下煤炭资源采出后,破坏了原有的地质平衡条件,引起采空

期刊

采煤塌陷预测治理coal mining induced collapse prediction control

高液限粘土路基填土工程性质探讨

文中通过级配分析、击实试验，分析了高液限粘土路基填土的物理力学特性和压实特性。认为现行以压实度为指标的压实控制标准不完备，是引起公路病害的主要原因之一。建议引入空气

期刊

高液限粘土路基压实度压实标准空气体积率clay with high liquid limit road foundation degree of c

用变形体系论点指导滑坡监测工作

滑坡监测工作近年来有较大发展，不仅在理论上，而且在方法上均有突破，本文提出滑坡监测应以位移变形为主，以应力和强度为辅的现场监测系统的观点，指导在动态条件下建立对位移和应变

期刊

变形体系滑坡监测应力应变边坡稳定deformation system landslide monitoring stressstrain i

磺胺间甲氧嘧啶全抗原的制备研究

采用重氮化法，将半抗原磺胺间甲氧嘧啶（SMM）与载体牛血清白蛋白（BSA）和卵清白蛋白（OVA）偶联，制得磺胺间甲氧嘧啶全抗原SMM—BSA和SMM—OVA。通过其紫外扫描光谱、SDS—PAGE凝胶电泳试

期刊

磺胺间甲氧嘧啶全抗原紫外扫描免疫鉴定Sulfamethoxydiazine Complete antigen UV scanning spectrum

北京：可供住房达16万套未来房价难现较大波动

日前，北京市房协结合北京市住建委网站数据及市场监测情况发布数据显示，10月北京住房成交量总体平稳回落，新建商品住房成交均价2．08万元／平方米，环比下降0．8％，二手住房也出现了大幅度

期刊

北京市住房大波动房价成交量数据显示市场监测长期监测

预审概念的比较与探讨

【正】当前,在我国关于预审的概念众说纷纭。对预审概念的探讨和研究,有利于我国的预审理论建设。为了给预审下一个科学的定义,笔者认为,有必要弄清我国预审具有哪些特有属

期刊

预审学刑事诉讼法特有属性概念刑事诉讼程序侦查机关侦查阶段理论建设侦查活动外延

南京市房屋安全管理处南京市房屋安全鉴定处

南京市房屋安全鉴定处成立于1991年3月。2006年12月5日《南京市城市房屋安全管理条例》正式颁布，为加强全市房屋安全管理工作，增设南京市房屋安全管理处，与南京市房屋安全鉴定处

期刊

安全管理条例城市房屋安全鉴定南京市安全管理工作行政事业单位专业技术人员建设委员会

兰州市部分生态旅游区生态环境现状调查

为深入了解现代化城市建设和旅游业开发对生态环境带来的负面影响程度.以兰州市市区和近郊7个生态旅游区为研究对象,采用样线法和样方法,对其生物多样性和环境现状进行调查.

期刊

生态旅游环境保护可持续发展兰州市Eco-tourism Environmental protection Sustainable developme

C3m×C3n、C4m×C4n的邻点强可区别全染色及全色数

给出了图C3m×C3n、C4m×C4n的一种全染色方法，并证明了该染色是邻点强可区别的，从而得到了C3m×C3n、C4m×C4n的邻点强可区别的全色数：Хast（C3m×C3n）=6、

期刊

邻点强可区别全染色全色数adjacent strong vertex-distinguishingtotal-coloringtotal coloring

中英文篇章关系连接词识别及对比分析平台设计与实现

与本文相关的学术论文