论文部分内容阅读
伴随着网络和信息产业的高速发展,越来越多的信息量出现在人们面前,许多信息处理技术也陆续出现,作为其中的基础项目之一,信息抽取也成为了人们研究的热点技术。本文所做研究的目的是如何将案件描述文本中办案民警需要的并且是感兴趣的信息准确的抽取出来,这样可以有效的节约民警同志在对过往案件进行查阅过程中花费的时间和精力,通过对案件相关概念的分析研究,本文提出了五要素的信息抽取目标,因为五要素信息是所有的案件描述文本中都具有的共同属性,而且这些信息往往是民警最关心的内容。由于信息抽取在公安案件领域的相关研究几乎没有,所以本文尝试着将此类研究引入到案件文本中来,并选择毒品类案件作为研究的切入点,并结合信息抽取的关键任务以及五要素的研究重点,将研究内容具体到命名实体的抽取,并且运用基于本体的方法去对信息进行抽取研究。本文的研究主要包括本体构建、文本预处理和命名实体抽取三方面内容。在本体构建过程中,结合案件描述文本中的五要素信息去对毒品类案件进行分析,本着将研究内容扩展到所有案件的想法,在本体的构建过程中提出了先内部循环再外部扩展的方法,通过实际操作证明此方法在很大程度上有利于实现本体的复用。本文利用Stanford大学的开源软件Protege实现了毒品类案件本体模型,给后续的实体抽取环节提供了一个知识上的共识和基础。在对文本信息进行预处理的过程中,本文采用手动方法构建词条信息去丰富ICTCLAS分词系统的内容,并且提出了对预处理后的文本先进行句子分类再进行抽取的方法,通过实验证明此方法可行并且对抽取效果有了很大程度的提高。在对文本进行实体抽取的过程中,结合Sheffield大学的自然语言处理平台GATE,通过对此平台的学习和研究发现GATE对中文信息抽取的不足之处,并提出通过对控件进行扩展、添加词表信息、建立辅助规则等一系列的方法使GATE平台对中文信息的实体抽取效果得到很大程度上的改进,并通过试验证明这一系列的做法可行并且可取。