论文部分内容阅读
学术论文是各行业科研人员寻找科研方向或思路、了解各领域研究成果及发展脉络、获知研究热点和研究进展的重要信息来源。研究人员进行文献信息检索时,论文的相关话题标注、话题的热度与话题间演化趋势的展示,可以为研究人员获取以上信息提供很大帮助。而目前的学术文献检索系统及话题演化分析方法存在以下问题。第一,论文检索排序往往局限于单纯的文本匹配度,没能针对用户感兴趣的话题进行排序优化;第二,对学术知识图谱的构建尚不完善,缺乏对相关话题的表示以及学术实体间关联程度的量化;第三,通用的有关话题演化分析的研究主要以文档在文本层面的相似程度作为文档间是否相关的判断依据,在学术论文场景下没有利用学术知识图谱所体现的学术实体间的引用、撰写等广泛联系。针对上述问题,本文提出了基于学术知识图谱的话题演化分析方法。利用结构化的论文数据构建学术知识图谱,训练改进的话题模型对知识图谱进行实体扩充与关系权重赋值,并针对不同类型的实体给出不同的相似度计算方法;对知识图谱进行时间维度的划分,基于分时知识图谱对各研究领域的话题热度与演化趋势进行建模分析。本文的主要研究内容如下:(1)提出基于学术知识图谱的话题演化分析方法框架本文提出了一个基于学术知识图谱的话题演化分析方法框架。使用结构化论文数据作为输入,经过话题模型训练、知识图谱构建与扩充、学术实体相似度计算、时间维度上的话题热度和话题间演化分析后,将分析结果提供给学术搜索引擎或检索工具,向用户进行展示。(2)改进话题模型构建与学术知识图谱扩充构建改进的话题模型,允许话题由除论文外的其他学术实体生成;利用改进的话题模型,在学术知识图谱中加入话题作为额外实体,并对图谱关系的权重进行量化;针对不同类型的实体给出不同的实体相似度计算方法。(3)基于分时知识图谱进行话题趋势分析通过时间切片构建分时知识图谱;利用分时知识图谱中的话题实体及带权重的关系,对话题热度与影响力的时序变化、以及不同话题间的演化关系进行分析。(4)构建学术论文检索工具原型系统通过结合检索语句与论文在话题分布上的相似度,优化基于文本匹配得到的检索排序结果;依据实体相似度计算结果展示相关学术实体推荐内容。最后根据以上方法框架,构建了学术论文检索工具原型系统,并以论文检索与话题间演化趋势查看为用例,介绍了本文方法的应用场景。通过实验对比和分析,突出了本文的创新特色,验证了本文方法的有效性。