论文部分内容阅读
信息抽取是为了满足信息爆炸时代从海量信息中快速有效获取所需信息而出现的一种研究方向。目前,信息抽取在医学、经济、图书等多个领域都得到了成功的运用,而涉足公安领域信息抽取的研究还比较鲜见。目前在公安领域,案件信息急剧增长,虽然公安办公逐步实现了信息化,但仍存在相当一部分的案件信息,以自由文本形式存在,需要信息抽取技术从中抽取结构化信息,进而存入数据库中供后续的数据挖掘研究。本文在对案件文本特点进行分析的基础上,以刑事类案件文本为对象进行了信息抽取研究。研究内容主要包括:命名实体识别、刑事案件框架体系构建、案件中原子事件的信息抽取等三个方面。基于领域特点,我们在实验中主要采用知识表辅助机器学习的方法,统计模型选用了条件随机场(CRF)。命名实体识别是信息抽取的基础。根据公安领域实际需要,我们定义了人名、性别、年龄、籍贯、住址、案件名、货币金额、时间、地点、机构、方式、频次、人数等13种命名实体,根据领域用字特点制作“刑事案件文本常用词表”,帮助快速识别实体或定位实体边界。基于文本特点将实体识别任务分为两层:先识别基本实体,再在此基础上识别案件名实体。在框架理论的指导下,我们为刑事案件文本构建了框架体系,将案件文本分为基本信息模块和事件信息模块,且事件分化为各种类型的原子事件,为案件文本信息的结构化表示提供了数据结构的支持。原子事件的信息抽取主要分两步实现:事件类型的识别和事件元素的识别。定义破案事件、抓获事件、报案事件三类原子事件为研究对象。通过人工抽取和《同义词词林》扩展获得的“触发词——事件类型对照表”,过滤得候选事件集,以此辅助CRF模型进行事件类型的识别。为每类事件构造事件模板,分别训练分类器,进行事件元素的识别。此外,本文整合三方面研究内容,开发了一个刑事案件文本信息抽取原型系统,其以自由形式的刑事案件文本作为输入,输出最终的结构化信息,并保留中间成果以供今后的研究和改进。