基于引用网络的文献聚类及主题变迁分析方法研究

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:ppc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于各领域发表的文献数量呈爆炸式增长,使得学者通过阅读相关领域内的所有文献来紧跟领域研究前沿,已经成为一项不可能完成的任务。面对海量的文献资料,学者如何快速寻找到对本人研究有价值的文献,以准确把握领域研究现状,确定领域中的主题变迁,已经成为当前急需解决的一大难题。文献计量分析法采用数学和统计学的方法,对文献进行定量分析,为解决这一难题提供了一种切实可行的办法。其中,文献聚类研究通过分析文献之间的引用网络和文本相似度,将相似的文献聚集到一起,使学者能更快速准确地了解领域研究现状、领域研究前沿和领域主题变迁,对学者开展后续研究具有重要意义。因此,文献聚类分析已经成为文献计量分析中一个重要的研究方向。本文针对两种不同类型的文献数据库(即文献全文信息数据库和文献概要信息数据库),在综合文献计量分析、引用网络、文本挖掘、统计分析等研究成果基础上,提出了两种不同的方法对文献进行聚类分析,以确定领域研究前沿与主题变迁。本文的创新点如下:1.针对PMC和PubMed等文献全文信息数据库,本文基于文献的引用网络,提出了一种考虑参考文献在引证文献中被引用的位置和文献间文本相似度等因素的文献相似度计算方法,以提升文献聚类的准确度。本文提出的文献相似度计算方法主要由以下三部分组成:a.本文基于“参考文献与引证文献越相似,它越可能在引证文献中被多次引用且被引用的位置越分散”的假设,在传统直接引用网络的基础上考虑了参考文献在引证文献中被引用的次数和位置因素,更准确地反映了参考文献与引证文献之间的相似度。b.本文基于“两篇具有共被引关系的参考文献越相似,它们在引证文献中被引用的位置越相近”的假设,在传统共被引网络的基础上将参考文献的引用邻近度作为影响文献相似度的重要因素之一,更准确地反映了引证文献中不同参考文献间的相似度。c.为减少计算文本相似度的工作量,本文以文献摘要信息替代全文信息计算文本相似度;为提升文献聚类的准确度,本文综合考虑了文献的直接引用网络、共被引网络、耦合网络及文本相似度等因素。最后,本文采用以上方法针对肿瘤领域的10,966篇文献和对应的参考文献进行了文献聚类,并以精确度、召回率、F值等统计指标作为评价指标,与传统文献相似度计算方法进行了比较,证明了本文所提出的方法能够更准确地反映文献之间的相似性,得到的文献聚类结果更加准确合理。2.针对Web of Science(WOS)等文献概要信息数据库,本文提出了一种基于引用网络和PageRank算法的主题变迁分析方法。本文通过对文献进行聚类分析和聚类主题提取,准确合理地揭示了领域研究前沿和主题变迁。本文提出的领域主题变迁分析方法主要分为三个阶段:a.本文首先将文献按照发表时间划分成若干时间窗口,然后根据每个时间窗口内文献的引用网络计算文献相似度,并分别对各时间窗口的文献进行聚类分析。b.在提取聚类主题时,本文考虑到不同文献在聚类中影响力不同这一因素,采用PageRank算法对聚类中的文献按照其影响力进行排序,并结合关键词词频统计方法提取聚类主题。c.本文首先将聚类视为节点,不同聚类中文献的引用关系视为连边,构建了聚类网络,然后按照聚类之间的相似度划分连边等级,以直观地揭示领域研究前沿和主题变迁。最后,本文采用以上方法针对数据挖掘领域的19,005篇文献及对应的参考文献和引证文献进行了文献聚类和主题变迁分析,并通过实验证明了本文所提出的主题变迁分析方法能准确合理地揭示领域研究前沿与主题变迁。本文针对PMC、PubMed数据库以及WOS数据库中的文献,在引用网络的基础上,设计了两种不同的文献相似度计算方法,从而能够更准确地反映文献之间的相似性,获得更合理的文献聚类结果。另外,本文还在文献聚类的基础上,对领域研究前沿和主题变迁进行了分析。本文所提出的方法,有助于学者寻找到领域内有价值的文献,从而进一步了解领域研究现状及未来发展趋势,为学者的后续研究提供数据支撑和理论借鉴。
其他文献
目的观察常规放疗与立体定向适形放疗(SRT)治疗恶性肿瘤的疗效。方法75例实体肿瘤分为常规放疗与立体定向适形放疗联合治疗组(研究组)和单纯常规放疗组(对照组),治疗后2月、6
在不对称合成领域中,手性聚合物的合成及其研究是一个很重要的课题。获得手性聚合物的常用方法一般有两种:一种是手性单体在催化剂的条件下进行聚合反应,制得光学活性的手性
本文以仓室传染病模型基本再生数为主线,首先介绍了仓室传染病模型在自治和非自治(周期和几乎周期)情形下基本再生数的定义及其相关结论,作为应用,考虑了几乎周期R-M(Ross-Macdo
根据《住房城乡建设部标准定额司关于请抓紧研编和编制工程建设强制性标准的通知》(建标标函[2016]155号),组织开展《室外给水工程项目规范》研编工作。在研编过程中,需借鉴和吸收国外先进的给水技术规范,因而,对美国、日本、加拿大三个发达国家的给水技术规范进行研究,并与我国《室外给水设计规范》(GB50013-2006)进行对比,通过比较研究,提出现行技术规范中存在的问题,并根据国外先进给水技术标准
目的:本实验拟通过研究PRL和PIGF、NGFR在食管鳞癌患者血浆、组织中的表达情况,探讨其与临床病理参数之间的关系,为食管癌早期诊断及探索食管癌新型治疗靶点提供重要依据。方
山本梅崖出生于江户时代末期的一个儒学世家,在家庭氛围的熏陶下,他自幼接触汉学。扎实的汉学功底和较高的文学修养,使他创作了大量的汉诗与各类文章著作,其中汉诗创作尤以1904-1928年的24年间为多。笔者将山本梅崖留下的大量汉诗手稿进行了整理,共得970首。本文在现有的研究基础上对这些汉诗进行分析,以期能够更加全面地认识山本梅崖,并丰富其相关研究。全文由四章组成。第一章对山本梅崖的汉学素养和汉诗创作