基于DBpedia Spotlight的高效命名实体识别方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:pikaqiuqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着关联数据的发展,大量不同领域的知识库以RDF的形式发布出来,规模愈来愈大,内容愈来愈丰富。命名实体识别作为信息提取领域的子任务,能够构建知识库与自然语言文本之间的桥梁,利用知识库中的语义为关键字提取,机器翻译,主题检测与跟踪等任务提供支撑。因此,如何有效地提高命名实体识别的性能成为许多研究工作的焦点。本文基于开源命名实体识别系统DBpedia Spotlight提出了一套命名实体识别优化方案。该方案包括三个部分,首先针对系统使用的一元语言模型设计并实现编辑扩展的框架,增强了系统的灵活性,同时基于该框架提出了使用训练集和候选集对模型进行扩展的方法,通过人工生成候选集验证了方法的有效性;其次,通过考虑上下文单词与实体的相关性,提出了点互信息率的概念,并使用其作为阈值对系统的上下文模型进行特征选择,舍弃掉上下文中与实体相关度较低的单词,在大幅度降低模型空间的同时提高了系统标注的准确率和召回率;最后,考虑到文本内部通常会有一个中心主题,本文使用维基百科文章之间的链接为实体和文本构建主题向量,通过计算候选集中实体与文本主题之间的相似度,对系统的标注结果进行二次消歧,进一步地提高了系统标注的准确率。另外,中文作为世界上使用人口最多的语言,设计和实现一个中文命名实体识别系统是非常必要的。本文以DBpedia Spotlight为基础,分析并克服中文语言为命名实体识别任务带来的挑战,使用中文维基百科数据构建一元语言模型,设计并实现了中文命名实体识别系统,为用户提供REST服务访问和Web界面访问,填补了中文命名实体识别工作的空白。综上,本文基于DBpedia Spotlight提出了一套命名实体识别优化方案。实验结果与分析表明,该方案能够有效地提高系统的灵活性,降低系统占用的空间,改善系统的标注效果。同时本文克服了中文语言带来的挑战,设计并实现了中文命名实体识别系统,对中文命名实体识别任务的研究具有一定进步意义。
其他文献
电能是用途最广、使用最方便、最清洁的一种二次能源,它有助于发展国民经济和提高人民生活水平。本研究基于2011-2017年中国三大区域内的20家电力行业上市公司的数据,运用数
采用化学沉淀法制备纳米氧化钨粉体,并用氢氮混合气对其进行还原处理,分析了还原处理温度对氧化钨化学组成的影响,用X射线粉末衍射仪表征了纳米氧化钨粒子的晶相与化学组成,
反腐治贪的决心从未改变,惩恶扬善的利剑永不蒙尘!$$处置问题线索4629件,立案2354件,其中县处级60件,结案2356件,党政纪处分2739人,移送司法机关97人,同比分别增长17.8%、8.9%、15.4
报纸
新课程改革要求改变教师和学生角色的定位,教师由知识的传授者转变为教学的引导者,使学生成为教学活动的“主人”。同时强调要在课堂教学活动中培养学生的主动参与意识、探究能力、问题解决能力和合作能力等。在此背景下,学生在地理课堂中的参与状况逐渐受到关注。由于传统的教学模式与现阶段的课程改革已经不太适应,同时高中地理要求学生具有较强的综合思维能力和抽象理解能力,造成学习难度较大,学习兴趣减弱。因此,需要地理
为了提高生产安全意识和经济运行水平,增强运行人员的节能降耗意识,促进节能减排的深入开展,降本增效,进一步提升企业经济效益和增强自身竞争力,秉承公平公正的态度,保持保安