基于简历文本数据的人才知识图谱构建

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:yl2590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高校扩招和人才培养质量的不断提升,社会上高学历人才存量呈快速增长态势。但是,许多企事业单位仍要面对难以找到合适员工的难题,究其原因,一方面是因为这些单位所仰赖的传统招聘方式获取信息的形式往往是被动的,即需要人才主动投递简历才会获取具体信息;另一方面是因为这些单位所依赖的传统招聘方式对人才地评估比较片面,缺少其他相关求职人员信息的关联和融合。与此同时,在互联网技术与计算机技术发展的共同引导下,人才相关信息的获取成本也大大降低。因此,以计算机技术和数据挖掘技术为基础,构建大规模人才知识图谱以帮助企业和政府主动、准确地匹配人才,势在必行。为此本文将中文简历作为人才知识图谱构建的主要数据来源,利用多种方法对其关键信息进行提取,并构建人才知识图谱。本文主要工作包括以下内容:(1)描述了人才知识图谱的研究背景,阐明了当前企事业单位招聘主要难点,说明了本文研究目的及意义。以命名实体识别技术为重点,知识图谱应用技术为扩展,详细介绍了当前知识图谱构建框架的研究现状,为开展后续工作做好充分的理论准备。(2)对简历文本内容特征和结构特征进行了充分的分析。本文通过对大量简历的浏览,总结出了半结构化简历文本具体结构性与异构性的表现。并以结构性为出发点,定义了简历标题的层级关系;以异构性为准则,结合主观经验与算法的方式构建了简历标题词典。(3)基于词典与规则的方式对简历文本命名实体进行了初步标注。本文依据简历文本结构性特征,利用“夹逼”模式与正则表达式对简历文本中的命名实体信息进行了初步识别与标注。(4)基于神经网络与概率图模型的方式对简历文本命名实体识别进行了精确识别。本文在介绍相关模型基本原理后,利用基于词典与规则方式获取的标注数据训练了多个有监督模型,如条件随机场模型、双向长短期记忆模型等,在实验对各模型结果按字符粒度进行评估比较的同时,验证了迁移学习在半结构化场景的可行性,最终以条件随机场与长短期记忆网络相结合的模型进行了实体信息抽取。(5)结合简历实体信息抽取结果与简历文本结构性构建人才知识图谱。本文首先介绍了图数据库的优势和特点,以及人才知识图谱相关应用场景。并从简历实体信息抽取结果为基础,以知识图谱设计原则为指导,以业务需求为目的,设计并构建了人才知识图谱。
其他文献
武术作为我国传统的体育项目,在竞技体育领域,闪烁着自己独特的光芒;随着竞技体育的不断发展,武术的竞赛规则也在不断的朝着“高、难、新、美、稳”的发展方向不断前进;因此,对于运动员的要求也就越来越高。青少年运动员是我国体育强国中的后备人才,是未来武术发展的新生代力量,如何更好的帮助他们提高竞技水平、防止运动损伤、延长运动寿命一直以来都是教练员、运动员们在不断探讨的问题。本文的研究目的在于探讨核心稳定性
傩舞源流久远,是上古社会的一种祭祀性舞蹈。跳傩舞是先民对鬼神的敬畏,也是人类最早发挥本体精神力量,向极端恶劣的自然环境进行抗争的一种形式。福建省泰宁县大源村至今仍保留着这一古老的舞蹈形式,风格古朴、文化深厚,是当地民俗文化宝库中的明珠。本文通过以大源傩舞为题材的舞蹈作品——《相由心生》的创作解读,将中国传统美学意象融入舞蹈创作中,从舞蹈意象入手,结合当下的创作手法呈现出中国东方美学精神。本文共分为
全球化的深入为国际化教育的蓬勃发展提供了契机,越来越多中国学生走出国门,接受国际化教育。同时,越来越多的国外的大学加强与国内学校的合作,意欲促进交流。交替传译在文化交流中发挥着重要作用,顺利完成口译任务是合格口译员的具体表现。为吸引更多中国学生赴新西兰留学,新西兰北帕默斯顿女子和男子高级中学国际教育部主任来到福建省福州市开展讲座宣传,笔者参与了本次交替传译实践活动。本文依据赖祎华教授(2012)口
改革开放以来,中国经济高速发展,综合国力显著提升,越发彰显出其对世界的影响力。为更好与世界各国进行政治经济文化交流,向世界展示中国当前发展情况,消除外界对我国不必要的误会,翻译成为一种极其重要的沟通手段。故此,找到行之有效的翻译原则与策略,借助合理、恰切的翻译理论来指导政论文翻译显得尤为重要。本研究以白皮书《伟大的跨越:西藏民主改革60年》及其英译本为研究对象,从汉英语言差异出发,以约翰·坎尼森·
《许三观卖血记》是余华于1995年创作的一部长篇小说。小说描述了以许三观为代表的普通市民百姓如何依靠卖血渡过人生的一次次困难。该书于2003年被Andrew F,Jones翻译为英文后,获得了国内外学者的广泛关注。众多学者对《许三观卖血记》及其英译本的研究主要集中在话语标记词、前景化语言、单一回指叙述、幽默表达和姓名等主题,但很少有人对该书中的隐喻进行研究。本文以概念隐喻理论及认知翻译假设为基础,
新时期以来,随着传记文学和冰心研究的发展,“冰心传”的写作和出版也日渐活跃,但与之相比,学术界对“冰心传”的研究却还处在较为零散和冷清的状态。因此,有必要以新时期以来的“冰心传”为研究对象,采用分析比较、社会历史研究和传记文学研究等方法,系统地研究新时期以来“冰心传”的写作现状,并探析该现状复杂而多重的形成原因。“冰心传”写作现状在总体上呈现为多向度的探索,即多层次的思想内容和多样化的艺术风貌。在
研究生教育是我国高等院校为社会输送高层次人才的重要途径。体育硕士是我国研究教育的重要组成部分。近些年,随着《关于加快发展体育产业的指导意见》、《健康中国2030规划纲要》发行,社会对高层次体育人才的需求不断增加,体育硕士教育质量逐渐受到学界广泛关注。研究生培养的导师负责制模式,为体育硕士培养质量提供了制度保障,不过,近年来,由于师生关系影响培养质量问题也逐步引起社会关注。因此,研究导学关系与体育硕
当前我国人口老龄化呈现“未富先老”的特征。受区域经济差异的影响,各地人口老龄化与经济水平存在极不平衡状态,区域间“未富先老”的现象严重。经济欠发达,而人口老龄化速度更快、水平更高的地区,老年人口数量不断增多,社会养老保障和养老服务相对滞后,养老问题突出。而养老问题的关键在于中老年人,养老服务体系的构建也需要结合中老年人的养老意愿。目前关于养老意愿的研究主要集中在社会学、人口学领域,多为单个地区或某
由于社会就业压力持续增大以及毕业后面临环境巨大改变等各种原因,毕业前中职生属于焦虑的易发群体,并极度容易产生毕业前焦虑,进而影响其求职和身心的健康发展,因此针对这种状况,本研究试图在前人的基础上编制中职生毕业前焦虑研究问卷,对中职生毕业前焦虑现状进行分析,并进一步了解中职生的毕业前焦虑的原因。为改善中职生毕业前焦虑提供一定的借鉴和指导作用。本研究一共分为五章,第一章文献综述和第二章研究设计主要介绍
在校园足球特色学校发展的带动下,校园篮球特色学校建设也由试点地区到全国范围内的遴选。2017年全国第一批校园篮球特色学校开始遴选,到现在已经完成了第三批校园篮球特色学校的遴选。短短三年时间,校园篮球特色学校的数量已经达到了5808所,其中福建省在第二、第三批遴选中,成功入选79所小学。随着入选学校数量的增加,对校园篮球特色学校的评价成为了问题。本文以福建省小学校园篮球特色学校评价指标体系为研究对象