基于神经网络的中文命名实体识别研究

来源 :南京师范大学 | 被引量 : 12次 | 上传用户:huiyigng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务是指从文本中识别出人名、地名和机构名等专有名词,是自然语言处理的关键技术之一,也是信息抽取、问答系统、机器翻译等应用的重要基础性工作。传统的基于统计学习模型的命名实体识别方法通常需要特征工程,特征对系统性能有较大影响,但是特征模板的设计需要大量人工参与和专家知识。为了减弱系统对人工特征设计的依赖,本文采用深度学习方法,结合中文命名实体识别任务的特点,研究基于神经网络的中文命名实体识别方法。本文的主要工作如下:(1)围绕命名实体识别任务和深度学习方法,讨论与分析了任务难点、常用的命名实体识别研究方法、深度学习方法基础、词向量以及常用的神经网络模型。(2)基于神经网络的字符标注方式实现了一个中文命名实体识别的基线(base1ine)系统。该方法采用双向长短期记忆模型,将中文命名实体识别任务看作一个序列标注问题,以中文句子中字符向量表示作为输入特征充分考虑上一下文信息,通过对中文序列中的每个字符分配标记完成命名实体识别任务。(3)对基于神经网络的片段级中文命名实体识别方法进行了探索性研究。由于中文句子中的单词间没有分隔符号,中文命名实体识别需要对给定的中文序列进行切分和实体分类。相比于对字符分配标记的方法,对切分片段整体分配标记更为合理,可以避免字符序列化标注方法中由局部标记区分实体边界的不足。本文首次提出了基于神经网络的片段级中文命名实体识别方法,采用两种基于神经网络的模型结构,将神经网络与半马尔可夫条件随机场模型相结合,通过对切分片段整体分配标记完成中文命名实体识别。本文对提出的中文命名实体识别方法进行了一系列实验,实验结果表明,基于神经网络的片段级中文命名实体识别方法相比于base1ine系统方法获得了显著的性能提升。
其他文献
本文在对社会需求的发展变化以及学科发展变化做出判断的基础上,提出了经济管理类统计学专业今后五年的改革发展思路,从而更好的培养和输送适应现实社会需求的人才。
目的 探讨应用多普勒超声诊断胎儿先天性心脏病的方法和声像学特点。方法 对37例先天性心脏病胎儿和61例正常胎儿进行多普勒超声心动衅检查。结果 单纯性间隔缺损多无四腔心异
已钻井统计表明,含二叠系的长裸眼穿盐井承压堵漏施工周期长,且易发生再次或多次漏失,制约了该区块的勘探开发速度。在盐上二叠系堵漏过程中尝试使用了一种进口高强度片状合
随着社会经济的发展以及城市建设水平的提高,往往需要在较短的时间内实现绿化美化的目标,这就需要移植一定数量的大树。但是,由于大树本身具有的特殊性,如果不注意移植过程的
<正> 人们不会忘记,我国国民经济的发展近七年呈现出增幅一直下滑的趋势,增长速度每年都下降1-2个百分点。从最高时的14%以上回落到1999年的7.1%。经济界人士一直在关注和探
<正>乌兰察布市察右中旗自然环境条件较差,造林树种单一,特别是城镇绿化和园林绿化周期长、成林慢。近年来,随着城镇绿化步伐的加快及周边环境的治理,大树移植已成为当地造林
目的 探讨脑瘤患者伽玛刀治疗后肿瘤卒中的原因。方法 分析伽玛刀治疗后4例脑瘤卒中的临床特征及CT、MRI表现。结果 经保守和手术治疗各2例,基本康复。结论 对于有高血压病史、曾
<正> 佣金自由化在世界范围内已走过了近三十年的历程。1975年5月1日,美国第一个开始实行佣金协商制。随后,澳大利亚、英国、法国、日本、中国台湾、新加坡、泰国、中国香港
开鲁县303国道两侧造林绿化工程秉持着科学规划布局,加强标准,注重实效性的基本准则。按照通辽市303线绿化工程的整体要求,应快速推进公路两侧的绿化工程,构建大型生态廊道,
<正> 当人们普遍关注西方国家将人权凌驾于主权之上、干涉别国内政的政治行为之时,人权已悄悄地渗入经济领域,成为阻碍国际贸易发展的一大障碍。劳工标准就是西方国家精心选