中文事件抽取的相关技术研究

被引量 : 0次 | 上传用户:tengyuansai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取是信息抽取领域一个重要的研究方向。事件抽取主要把人们感兴趣的,用自然语言表达的事件以结构化的形式呈现出来,如什么人,什么地方,什么时间,做了什么事等,在自动文摘,自动问答以及信息检索等领域有着广泛的应用。本文主要针对中文事件抽取中的两大主要任务:事件类别识别以及事件元素识别进行了深入研究,并实现了中文事件抽取系统HIT-IR EES。在事件类别识别中,由于语料的限制训练实例较少,存在着严重的数据稀疏问题,如何解决数据稀疏问题以及发现新事件成为研究的重点。本文提出了一种基于自动扩展事件触发词的方法来解决这些问题,首先使用辞典自动对训练集中的事件触发词进行扩展,根据扩展的触发词获取候选事件及其唯一的候选类别;然后结合扩展的触发词,使用词法、上下文信息和辞典特征,利用最大熵分类器对候选事件进行二元分类,来判定事件的类别。该方法将候选事件作为训练实例,有效缩减了训练实例中反例的个数,解决了训练数据正反例不平衡问题,并且扩展的触发词有助于新事件的发现;二元分类避免了多元分类带来的准确率低的问题。在ACE2005语料上的实验结果显示,最终的F值达到了61.24%,超过了传统的基于机器学习的方法。在事件元素识别中,如何从众多的Entity、Time Expression以及Value中找出事件元素,并准确的进行角色标注成为研究的重点。本文提出了两种方法:基于SRL(语义角色标注)的事件元素识别,以及基于最大熵的事件元素识别。基于SRL的方法直接利用SRL技术模块的结果,并通过角色标签转换完成事件元素识别的任务,但由于该方法过度依赖于底层技术,如SRL,依存句法分析等,使得错误级联情况较为严重;基于最大熵的方法将事件元素识别问题看作分类问题,将所有出现的Entity、Time Expression和Value作为候选元素,选取词法、类别信息、上下文信息、句法结构等特征从不同的角度描述候选元素,并采用最大熵分类器对其进行多元分类。对比实验证明,由于候选元素实例比较充裕,多元分类的方法取得了很好的效果。在ACE2005语料上的实验结果显示,最终的F值达到了64.64%,高于基于SRL的元素识别方法。
其他文献
胡果·格劳秀斯(1583-1645年),被誉为近代自然法之父,现代国际法之父,在他那里进行着从中世纪自然法到近代自然法的转折。他提倡平等的主权国家应该在自然法之下走向和平;为
本文运用壮医白睛诊法对大肠癌的诊断进行了临床观察研究,并设结肠炎等其他病种、健康人群组进行对照观察。结果表明:大肠癌30例出现特定的白睛讯号达23例,诊断符合率达76.67%
当代国外马克思主义在对资本主义的批判性研究中取得了丰富的成果。这些研究成果不仅在主题上基于资本主义新的时代条件变化扩展了马克思主义的研究,而且在分析模式上试图更
<正>每次走过北京天安门广场,凝视那高耸的革命烈士纪念碑,心中自然升腾起由衷的敬意。我们党能走到今天,全国民众能享受安宁,是与沉睡在这里的千千万万党的优秀儿女的英灵分
<正>古人讲"修身、齐家、治国、平天下",修身是排在第一位的。历代志士仁人身体力行,在修身方面留下了许多感人事迹。我们党高度重视继承和发扬修身这一优良文化传统。在延安
目的:观察固冲止血汤治疗气虚血瘀型无排卵型功能失调性子宫出血(简称功血)出血期的临床疗效,并对其止血机理进行探讨。方法:将60例气虚血瘀型功血患者随机分为治疗组(30例,口服
<正>社会的快速发展让广大教育工作者意识到,能力的培养比理论的学习更加重要,而素质教育明确指出要通过探究性学习的学习方式,培养学生的探究能力,注重学生的实践能力.然而,
"九·一八"事变前的民国时期,是东北自建铁路发展最快的时期。其间,东北地方政府坚持自主筹资、自主设计、自主管理的铁路政策,以及铁路修成后实行铁路联运、减免货运、客运
互穿聚合物网络(Interpenetrating Polymer Net-work,简称IPN)是聚合物共混改性的一种重要方法,利用IPN技术可以提高聚合共混物的相容性。淀粉是自然界丰富的可再生资源,它无
目的:观察蠲逆清中饮治疗脾胃湿热型反流性食管炎(reflux esophagitis, RE)的临床疗效,并从理论和临床研究两个方面探讨蠲逆清中饮治疗RE的机制。方法:临床选择符合纳入标准