论文部分内容阅读
在当今信息化时代下,信息抽取技术帮助人们从海量数据中获取信息、理解信息。事件抽取是信息抽取领域中的一个重要的子任务,旨在从无结构化文本中抽取出有结构的事件。事件的表达方式是指系统采用不同事件表示单元展示事件的方式,例如,由单词组成的集合或预先定义好的事件模板。事件的表达方式影响着事件的可理解性,即人们是否能够从抽取出的事件表达中获取完整的事件信息。本文主要研究了事件的多层次表达方式对事件的可理解性的影响,具体包括基于短语级、子句级、文档级、多文档级事件表示方法。(1)提出了一种基于多特征分类过滤的事件抽取方法。基于片段的事件抽取方法是当前主流方法之一。片段是对社交网络文本进行切割得到的短语级表达单元,大多是实体和常见短语。和传统的基于单词的事件抽取方法相比,基于片段的方法具有同样高的效率,还具有更高的事件可理解性。针对候选事件中难以区分热点话题和新闻事件的问题,本文提出采用融合多特征的新闻事件分类方法替代现有的基于统计值的新闻度排序方法。基于统计值的方法不足之处在于:只能考虑较少特征,牺牲召回率以获得高准确率。本文考虑了和候选事件相关的文本对于新闻事件过滤的作用,并定义了一系列特征对候选事件的统计信息、社交信息和文本信息进行建模。实验结果证明,相比于基于统计值的方法,本文提出的基于多特征分类的新闻事件过滤方法在提高准确率的基础上,显著提高了召回率。(2)提出了一种基于主谓宾三元组框架的社交网络事件抽取方法。由单词、短语组成的集合表示的事件属于扁平化的表示,事件表示单元之间相互独立,缺少单元之间的结构信息。本文提出采用子句级的事件表示单元(框架)进行事件抽取。框架定义为子句中包含主谓宾短语的三元组。框架中的短语结构信息表示了子句的深层语义信息,能够帮助理解事件。本文首先对社交网络文档进行浅层语义分析,然后通过开放式信息抽取方法进行框架抽取。实验结果表明,基于框架的事件抽取方法提高了准确率,事件可理解性好。(3)提出了一种基于文档级时序特征的事件抽取方法。基于文档的事件表达包含完整的事件信息、事件可理解性由于基于单词、短语的表达。社交网络数据规模庞大、基于词袋模型的文档表示向量空间消耗巨大限制了基于文档的事件抽取方法的发展。受当前词向量表示技术的启发,本文采用低维实值向量表示社交网络文档以减少时间、空间消耗。针对文档稀疏导致无法计算文档级时序特征以用于区分新闻事件和无意义话题的问题,本文提出将单词级统计时序特征扩展为文档级时序特征。本文将文档的r近邻文档定义为其语义相似文档,以便于计算文档的语义频率,进而解决文档稀疏问题。然后,本文定义了基于文档语义频率的文档级时序特征,并和其他统计特征一起用于新闻事件过滤。实验结果证明基于文档级时序特征提高了基于文档的事件抽取方法的准确率。(4)提出了一种基于混合表示模型的中文神经网络事件抽取方法。本文采用模板表示事件,模板元素可以在多个文档中抽取。基于模板的表示不但包含完整事件信息,而且表达方式更简洁。由于中英文的差异,现有的基于神经网络的英文事件抽取方法直接应用于中文事件抽取任务效果不好。本文提出基于混合表示模型的中文事件抽取模型以解决中文事件抽取中的特征工程问题和未登录词问题。首先,本文采用两个循环神经网络分别学习词语的词语级表示和字符级表示,并拼接得到词语的混合表示。词语的混合表示能够一定程度上缓解中文数据集中未登录词表示问题。其次,本文采用卷积神经网络学习针对当前触发词-论元的块级别特征,以用于论元角色分类任务。最后,本文利用共享参数的方法进行事件检测和论元角色分类的联合学习,以减少错误级联。实验证明,本文提出的基于混合表示模型的中文事件抽取方法显著的提高了准确率。