论文部分内容阅读
近年来,由于各领域发表的文献数量呈爆炸式增长,使得学者通过阅读相关领域内的所有文献来紧跟领域研究前沿,已经成为一项不可能完成的任务。面对海量的文献资料,学者如何快速寻找到对本人研究有价值的文献,以准确把握领域研究现状,确定领域中的主题变迁,已经成为当前急需解决的一大难题。文献计量分析法采用数学和统计学的方法,对文献进行定量分析,为解决这一难题提供了一种切实可行的办法。其中,文献聚类研究通过分析文献之间的引用网络和文本相似度,将相似的文献聚集到一起,使学者能更快速准确地了解领域研究现状、领域研究前沿和领域主题变迁,对学者开展后续研究具有重要意义。因此,文献聚类分析已经成为文献计量分析中一个重要的研究方向。本文针对两种不同类型的文献数据库(即文献全文信息数据库和文献概要信息数据库),在综合文献计量分析、引用网络、文本挖掘、统计分析等研究成果基础上,提出了两种不同的方法对文献进行聚类分析,以确定领域研究前沿与主题变迁。本文的创新点如下:1.针对PMC和PubMed等文献全文信息数据库,本文基于文献的引用网络,提出了一种考虑参考文献在引证文献中被引用的位置和文献间文本相似度等因素的文献相似度计算方法,以提升文献聚类的准确度。本文提出的文献相似度计算方法主要由以下三部分组成:a.本文基于“参考文献与引证文献越相似,它越可能在引证文献中被多次引用且被引用的位置越分散”的假设,在传统直接引用网络的基础上考虑了参考文献在引证文献中被引用的次数和位置因素,更准确地反映了参考文献与引证文献之间的相似度。b.本文基于“两篇具有共被引关系的参考文献越相似,它们在引证文献中被引用的位置越相近”的假设,在传统共被引网络的基础上将参考文献的引用邻近度作为影响文献相似度的重要因素之一,更准确地反映了引证文献中不同参考文献间的相似度。c.为减少计算文本相似度的工作量,本文以文献摘要信息替代全文信息计算文本相似度;为提升文献聚类的准确度,本文综合考虑了文献的直接引用网络、共被引网络、耦合网络及文本相似度等因素。最后,本文采用以上方法针对肿瘤领域的10,966篇文献和对应的参考文献进行了文献聚类,并以精确度、召回率、F值等统计指标作为评价指标,与传统文献相似度计算方法进行了比较,证明了本文所提出的方法能够更准确地反映文献之间的相似性,得到的文献聚类结果更加准确合理。2.针对Web of Science(WOS)等文献概要信息数据库,本文提出了一种基于引用网络和PageRank算法的主题变迁分析方法。本文通过对文献进行聚类分析和聚类主题提取,准确合理地揭示了领域研究前沿和主题变迁。本文提出的领域主题变迁分析方法主要分为三个阶段:a.本文首先将文献按照发表时间划分成若干时间窗口,然后根据每个时间窗口内文献的引用网络计算文献相似度,并分别对各时间窗口的文献进行聚类分析。b.在提取聚类主题时,本文考虑到不同文献在聚类中影响力不同这一因素,采用PageRank算法对聚类中的文献按照其影响力进行排序,并结合关键词词频统计方法提取聚类主题。c.本文首先将聚类视为节点,不同聚类中文献的引用关系视为连边,构建了聚类网络,然后按照聚类之间的相似度划分连边等级,以直观地揭示领域研究前沿和主题变迁。最后,本文采用以上方法针对数据挖掘领域的19,005篇文献及对应的参考文献和引证文献进行了文献聚类和主题变迁分析,并通过实验证明了本文所提出的主题变迁分析方法能准确合理地揭示领域研究前沿与主题变迁。本文针对PMC、PubMed数据库以及WOS数据库中的文献,在引用网络的基础上,设计了两种不同的文献相似度计算方法,从而能够更准确地反映文献之间的相似性,获得更合理的文献聚类结果。另外,本文还在文献聚类的基础上,对领域研究前沿和主题变迁进行了分析。本文所提出的方法,有助于学者寻找到领域内有价值的文献,从而进一步了解领域研究现状及未来发展趋势,为学者的后续研究提供数据支撑和理论借鉴。