论文部分内容阅读
唐卡是一种卷轴画,是探寻我国历史文化、经济社会、民族融合发展等方面的重要实物史料,本文研究并实现了基于知识图谱的唐卡人物问答系统。本文研究包括以下几个部分:第一,构建了唐卡人物知识图谱,为问答系统提供知识库。利用网络爬虫和规则的方式,从网站和电子书籍中获取唐卡人物相关数据,并对数据进行清洗和整理,最终将三元组存储到Neo4j图数据库,实现唐卡人物知识图谱的构建,最终利用Neo4j自带的可视化工具进行查询和显示。第二,提出了一种唐卡领域语句纠错方法。采用基于领域易错字词集、基于字和词粒度的n-gram语言模型对语句进行错词检错,使用音/形近词和编辑距离形成错词候选集,将错词候选集带入原句,计算语句困惑度后排序得到纠正后的语句。第三,基于分类算法,对问题意图深入分析并实现问题分类。在问题意图分析阶段,标注问题类型训练数据,将唐卡提问问题分为15类,整理了201份唐卡领域问答问题,然后训练标注数据。比较KNN、朴素贝叶斯和决策树等算法,最后基于朴素贝叶斯分类器模型实现了输入问句的分类。第四,基于Bi LSTM-CRF模型实现了唐卡人物实体识别。本文在双向LSTM模型的输出层增加了CRF层,对上下文标签进行约束,然后将问句中的实体抽取出来填充到cypher模板中,把自然语言问句转换为知识图谱查询语言,将问句中包含的相关实体映射到唐卡人物知识图谱中,检索知识图谱,最终将结果返回给用户。最后使用Echarts实现唐卡人物的检索和人物关系的可视化展示,基于Flask框架完成Web问答平台的设计与实现,从理论到方法验证了基于知识图谱的唐卡人物问答系统。