基于知识图谱的唐卡人物问答系统研究与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:liangweiyu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唐卡是一种卷轴画,是探寻我国历史文化、经济社会、民族融合发展等方面的重要实物史料,本文研究并实现了基于知识图谱的唐卡人物问答系统。本文研究包括以下几个部分:第一,构建了唐卡人物知识图谱,为问答系统提供知识库。利用网络爬虫和规则的方式,从网站和电子书籍中获取唐卡人物相关数据,并对数据进行清洗和整理,最终将三元组存储到Neo4j图数据库,实现唐卡人物知识图谱的构建,最终利用Neo4j自带的可视化工具进行查询和显示。第二,提出了一种唐卡领域语句纠错方法。采用基于领域易错字词集、基于字和词粒度的n-gram语言模型对语句进行错词检错,使用音/形近词和编辑距离形成错词候选集,将错词候选集带入原句,计算语句困惑度后排序得到纠正后的语句。第三,基于分类算法,对问题意图深入分析并实现问题分类。在问题意图分析阶段,标注问题类型训练数据,将唐卡提问问题分为15类,整理了201份唐卡领域问答问题,然后训练标注数据。比较KNN、朴素贝叶斯和决策树等算法,最后基于朴素贝叶斯分类器模型实现了输入问句的分类。第四,基于Bi LSTM-CRF模型实现了唐卡人物实体识别。本文在双向LSTM模型的输出层增加了CRF层,对上下文标签进行约束,然后将问句中的实体抽取出来填充到cypher模板中,把自然语言问句转换为知识图谱查询语言,将问句中包含的相关实体映射到唐卡人物知识图谱中,检索知识图谱,最终将结果返回给用户。最后使用Echarts实现唐卡人物的检索和人物关系的可视化展示,基于Flask框架完成Web问答平台的设计与实现,从理论到方法验证了基于知识图谱的唐卡人物问答系统。
其他文献
随着国家少数民族工作治理理念的调整变化,少数民族地区推广普及国家通用语言的工作,显得尤为重要,让藏族学生潜移默化地、自觉自然地学习国家通用语,并利用汉语网络教育优质资源提高他们的知识文化水平,是一项有意义的工作。在自然语言处理中机器翻译技术也是一个重要研究内容,目前主流机器翻译技术是基于深度学习的神经机器翻译。神经机器翻译的主要优点表现在它不需要特征工程,需要从大规模语料集中学习语言特征,继而完成
学位
学位
学位
学位
学位
学位
学位
学位
本文首先从机理、制备方法、优势和缺点等方面对分子印迹技术和虚拟模板分子印迹技术进行了对比,然后选取了两种典型对人体健康具有威胁的物质:塑化剂类和有机磷农药类,制备了分子印迹聚合物,对制备材料进行了表征,建立了基于分子印迹聚合物的固相萃取-气相质谱联用测定塑化剂类和有机磷农药类的新方法,对该方法进行了分析评价,并成功应用于实际样品中的塑化剂类及有机磷农药类的检测。(1)以75um-Amberchro