基于本体的毒品案件信息抽取研究

被引量 : 0次 | 上传用户:andysonz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络和信息产业的高速发展,越来越多的信息量出现在人们面前,许多信息处理技术也陆续出现,作为其中的基础项目之一,信息抽取也成为了人们研究的热点技术。本文所做研究的目的是如何将案件描述文本中办案民警需要的并且是感兴趣的信息准确的抽取出来,这样可以有效的节约民警同志在对过往案件进行查阅过程中花费的时间和精力,通过对案件相关概念的分析研究,本文提出了五要素的信息抽取目标,因为五要素信息是所有的案件描述文本中都具有的共同属性,而且这些信息往往是民警最关心的内容。由于信息抽取在公安案件领域的相关研究几乎没有,所以本文尝试着将此类研究引入到案件文本中来,并选择毒品类案件作为研究的切入点,并结合信息抽取的关键任务以及五要素的研究重点,将研究内容具体到命名实体的抽取,并且运用基于本体的方法去对信息进行抽取研究。本文的研究主要包括本体构建、文本预处理和命名实体抽取三方面内容。在本体构建过程中,结合案件描述文本中的五要素信息去对毒品类案件进行分析,本着将研究内容扩展到所有案件的想法,在本体的构建过程中提出了先内部循环再外部扩展的方法,通过实际操作证明此方法在很大程度上有利于实现本体的复用。本文利用Stanford大学的开源软件Protege实现了毒品类案件本体模型,给后续的实体抽取环节提供了一个知识上的共识和基础。在对文本信息进行预处理的过程中,本文采用手动方法构建词条信息去丰富ICTCLAS分词系统的内容,并且提出了对预处理后的文本先进行句子分类再进行抽取的方法,通过实验证明此方法可行并且对抽取效果有了很大程度的提高。在对文本进行实体抽取的过程中,结合Sheffield大学的自然语言处理平台GATE,通过对此平台的学习和研究发现GATE对中文信息抽取的不足之处,并提出通过对控件进行扩展、添加词表信息、建立辅助规则等一系列的方法使GATE平台对中文信息的实体抽取效果得到很大程度上的改进,并通过试验证明这一系列的做法可行并且可取。
其他文献
近些年以来,基础训练课程大纲一直按照油画专业教学进行训练,没有考虑到各个专业的独特性。这已经不符合现代绘画的教学特点,所以我们要思考各专业的教学特点,合理的安排基础
钛合金因其优越的综合性能而被广泛应用于航空航天领域,但钛合金的难加工特性一直是加工领域研究的重点,尤其是钛合金薄壁件。薄壁零件大都是由整块毛坯加工而成,材料的去除
本文的研究对象是现代汉语书面语非现实广义条件复句。我们在对这类复句做全面描写的基础上,借助“复句三域”视角,把非现实广义条件复句分为内容语域、认知语域、言语行为语域
<正>《教师教学用书》对《那树》的解读定性在对人类文明发展的质疑,并在"教学建议"里要求"把课文当作语文材料来学习,又要把它当作认识自然、透视人与自然的关系的教科书来
自《名人传》进入中国以来,对其进行解读的研究多得数不胜数,本文以《名人传》为例,试图从中学教学之价值追寻及其价值启示这两个层面进行思考,尽可能地对现行人教版"名著导
<正>该课获2008年山东省语文优质课比赛一等奖一、导入新课师:今天和济宁的同学在一起学习,我感到很幸福,因为济宁是一方人杰地灵的宝地,孕育了两位举世闻名的圣人——孔子和
胰岛素样生长因子1(Insulin-like growth factor-1,IGF1)因其结构与胰岛素类似而得名。IGF1能有效促进骨骼肌生长同时增强再生肌肉的收缩力,而且能够激活RNA聚合酶等活性,促进非
<正>做了数十年语文杂志编辑,天天阅读、审看、校对中学语文老师的文稿,困惑和烦恼越来越多,喜悦和激动越来越少;来稿越来越多,但可用的越来越少;相类的模仿、借鉴的越来越多
电力市场建设对于促进电力企业可持续发展起到至关重要的作用,也使得企业如何适应电力市场成为研究的热点问题。荣信公司产品涵盖较广,全线产品可满足从发电、输配电到终端负载
目的:探讨慢性B淋巴细胞白血病(B-CLL)患者ZAP-70、CD38的表达与中医辨证分型的关系。方法:采用流式细胞术检测对40例B-CLL病人骨髓或外周血ZAP-70、CD38的表达水平,并从分子