社保领域知识图谱构建及应用研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zjuxy2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会保障制度与民生息息相关,而作为其重要组成部分的社会保险更与本文普通人密不可分。但随着经济的发展,大量的社会保险知识呈现出地域化和碎片化,并且互联网的发展使人们更愿意在网上提出问题。因此,目前亟需构建一个社保领域知识库,并在其之上能够创造应用价值,解决老百姓所遇到的社保问题,而知识图谱可以作为解决以上问题的可行方法。基于以上背景,以自然语言处理技术和神经网络理论作为支撑,本文对社保领域知识图谱构建以及问答技术进行了深入研究。本文的内容主要分为两个模块:社保知识图谱构建与基于知识图谱的问答原型构建。在社保领域知识图谱构建模块中,本文结合社保领域特点提出了一个知识图谱构建框架,主要包括知识的预处理,概念提取,实体识别以及关系抽取四个部分。在预处理部分,本文利用网络爬虫爬取了权威的领域知识并对文本进行去噪。由于社保领域中的概念繁多,为了减少人工参与,所以本文首先利用规则与统计相结合的方法对领域概念进行提取,将构建好的领域概念集合用于分词和标注任务。为了获取知识图谱中的重要组成部分:实体和关系,本文接下来利用经典的BiLSTM-CRF实体识别模型进行社保领域实体识别,并在此基础之针对领域特点上做出改进,加入分词层并使用组合嵌入来提高识别效果。接下来,本文利用远程监督的方法,设计了社保领域关系抽取框架,利用多段卷积神经网络(PCNNs)进行建模,并引入注意力机制和实体描述特征。然后通过提取的实体和关系构建领域知识图谱。基于构建的知识图谱,本文又对社保领域的问答技术进行研究,主要由实体链接和关系预测两个任务构成。在实体链接部分,本文提出了一种融合多种特征的实体间相似度计算方法。然后在关系预测任务中,本文构建了一个基于层叠Bi-GRUs的关系预测模型,并同样引入注意力机制。通过以上两步操作,可以将问句中的实体和关系进行抽取,最终形成形式化查询语句,在知识图谱中查询后返回结果。最后,本文对以上提出或采用的方法及模型进行实验并分析,以验证本文算法和模型的有效性和准确性,说明了本文提出的社保领域知识图谱构建方法以及基于社保领域知识图谱的问答原型的有效性及应用价值。
其他文献
宜城楚皇城作为楚国城邑,自发现以来一直受到学界重视,一般认为它是楚国的鄢郢、别都或是临时别都。鄢作为楚国历史上一处非常重要的都邑,它对于研究楚文化、楚国人文历史、楚国建筑等方面具有重要意义。楚皇城营建时间约在春秋中晚期至战国早期,其建筑风格上既有早期城址的规模小、单城结构特点,也具有战国时代城址营建的一些特征,如军事防御性强,设置烽火台建筑、跑马堤建筑等;其布局上也有它鲜明的特色,八座城门连接延伸
在统计学的研究和应用中,线性回归模型是一类重要的参数回归模型,是研究其他统计回归模型的基础。线性回归模型的应用也非常广泛,比如在经济学、金融学、医学、工业、农业等领域都有广泛的应用。但是如果数据不服从线性回归模型,仍然用它对数据进行统计推断,或许不能揭示数据中隐藏的真正的相关关系,造成对所判断事物的错误理解,从而导致对所判断事物的预测失去了准确性。因此,对数据是否服从线性回归模型或者某一给定的参数
通过详细说明地下水质量综合评价中较普遍采用的4种评价方法——单因子评价法、F值评分法、模糊综合评价法和灰色关联分析法的基本原理,并以实测的海口市主要开采层位的地下
谷粘虫(Pseudaletia(leucania)zeae Dup)是塔什库尔干县天然草原主要害虫之一,幼虫食性很杂,可取食多种植物,尤其喜食禾本科植物,危害严重时将叶片吃光,使植株形成光秆,对草
2009年,与陈国灿先生相识于新疆博物馆,在课题合作中陈老师给我的印象是一位严肃、认真的长者,更是一个工作狂人。此后每年夏季,陈老师基本都到吐鲁番来工作一段时间,我也因
本文立足于海德格尔早期著作《存在与时间》,力图阐述该作品中海德格尔“世界”概念的内涵及其论述的思路。“世界”这一概念,是海德格尔特有的境域式思维方式的结果,也是让
吡咯是非常重要的含氮杂环化合物,其衍生物广泛存在于天然产物和药物中,参与生命活动,具有抗肿瘤、抗炎、抗细菌、抗氧化和抗真菌等作用。因此,吡咯及其衍生物的合成研究具有非常重要的意义。一般使用Paal-Knorr反应合成N-取代吡咯,Paal-Knorr反应的催化剂研究较多,可以是质子酸、Lewis酸、固体酸等。这些催化剂存在诸多缺点,例如,价格昂贵、有毒、不可回收、后处理复杂等。本文开发可回收、易分
湿地文献数据研究是湿地研究中重要的一部分,传统的湿地文献研究方法主要是对湿地文献论文作者合作度,合著率,核心作者,论文引用数量,论文高频关键词的分析,缺少对湿地文献文本语义方面的分析。湿地文献文本数据本身具有复杂性和开放性,统计方法难以分析出湿地文献所表达的具体实体信息和实体关系。因此本文的主要研究课题是湿地数据的命名实体识别和开放语义关系抽取,主要研究内容和工作分为以下三个部分。第一部分是湿地命
土地是万物生长的根本,土地整理则是顺应时代发展发展、关系国计民生的一项重要工程。通过拆除旧房、建造新居、还耕复垦等方式,合理优化目标区域内用地结构,控制目标区域内
探讨内皮型一氧化氮合酶基因27bp VNTR多态性与新疆哈萨克族和汉族原发性高血压的相关性研究。运用多重单碱基延伸分型技术(Multiplex SNapshot)对新疆哈萨克族363例高血压患者