基于学术知识图谱的话题演化分析方法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dddnnn111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术论文是各行业科研人员寻找科研方向或思路、了解各领域研究成果及发展脉络、获知研究热点和研究进展的重要信息来源。研究人员进行文献信息检索时,论文的相关话题标注、话题的热度与话题间演化趋势的展示,可以为研究人员获取以上信息提供很大帮助。而目前的学术文献检索系统及话题演化分析方法存在以下问题。第一,论文检索排序往往局限于单纯的文本匹配度,没能针对用户感兴趣的话题进行排序优化;第二,对学术知识图谱的构建尚不完善,缺乏对相关话题的表示以及学术实体间关联程度的量化;第三,通用的有关话题演化分析的研究主要以文档在文本层面的相似程度作为文档间是否相关的判断依据,在学术论文场景下没有利用学术知识图谱所体现的学术实体间的引用、撰写等广泛联系。针对上述问题,本文提出了基于学术知识图谱的话题演化分析方法。利用结构化的论文数据构建学术知识图谱,训练改进的话题模型对知识图谱进行实体扩充与关系权重赋值,并针对不同类型的实体给出不同的相似度计算方法;对知识图谱进行时间维度的划分,基于分时知识图谱对各研究领域的话题热度与演化趋势进行建模分析。本文的主要研究内容如下:(1)提出基于学术知识图谱的话题演化分析方法框架本文提出了一个基于学术知识图谱的话题演化分析方法框架。使用结构化论文数据作为输入,经过话题模型训练、知识图谱构建与扩充、学术实体相似度计算、时间维度上的话题热度和话题间演化分析后,将分析结果提供给学术搜索引擎或检索工具,向用户进行展示。(2)改进话题模型构建与学术知识图谱扩充构建改进的话题模型,允许话题由除论文外的其他学术实体生成;利用改进的话题模型,在学术知识图谱中加入话题作为额外实体,并对图谱关系的权重进行量化;针对不同类型的实体给出不同的实体相似度计算方法。(3)基于分时知识图谱进行话题趋势分析通过时间切片构建分时知识图谱;利用分时知识图谱中的话题实体及带权重的关系,对话题热度与影响力的时序变化、以及不同话题间的演化关系进行分析。(4)构建学术论文检索工具原型系统通过结合检索语句与论文在话题分布上的相似度,优化基于文本匹配得到的检索排序结果;依据实体相似度计算结果展示相关学术实体推荐内容。最后根据以上方法框架,构建了学术论文检索工具原型系统,并以论文检索与话题间演化趋势查看为用例,介绍了本文方法的应用场景。通过实验对比和分析,突出了本文的创新特色,验证了本文方法的有效性。
其他文献
绝缘子闪络是指固体绝缘子周围的气体或液体电介质被击穿时,沿固体绝缘子表面放电的现象,是影响电力传输设备安全性的重要因素。为了分析绝缘子闪络特性,目前普遍采用的方式
空气弹簧是一种利用橡胶气囊内部压缩空气的反力作为弹性恢复力的弹性元件。对空气弹簧进行力学特性的研究将为研制高性能空气弹簧提供方向指导。作为汽车悬架上的弹性元件,
(R)-3,5-双(三氟甲基)苯乙醇是癌症抗呕吐药阿瑞匹坦重要的手性药物中间体,也是国内外研究的热点和难点。随着癌症患者数量逐年增加,抗呕吐的药物的需求量也不断增加,因此高
舞蹈艺术是中国历史悠久的艺术形式,随着中国文化事业的发展,舞蹈艺术逐渐由舞台走向群众,成为群众文化的一部分。在中国群众文化发展历程中,群众舞蹈艺术已经发展的比较成熟
该报告的内容按编队卫星飞行的星间绝对距离测量与时间统一、编队构型的精确控制两部分独立展开。编队测量方面:完成了星间相对导航、精确定位的方案设计,主要是基于飞秒激光
木结构建筑是中华民族历史文化的宝贵遗产,是东方建筑文化的代表,在世界建筑史上占有重要地位。中国应用最为广泛的是抬梁式和穿斗式木结构,在中国西南地区存在有大量的穿斗
威廉·莎士比亚(1564-1616)是文艺复兴时期英国最伟大的诗人和戏剧家。他同时代的著名戏剧家本·琼生曾撰文指出,莎士比亚"不属于一个时代而属于所有的世纪",盛赞莎