论文部分内容阅读
伴随着数据科学时代的来临,信息科学与图书馆学(Information Science&Library Science,ISLS)领域的研究文献数量急剧增多,海量的研究文献在带给人们丰富资源的同时,也为获取知识带来挑战。仅靠传统的引文网络已不能清晰地展示知识的发展规律,因此识别关键文献的引文路径、提炼文献的核心主题,梳理知识的演化方向和趋势,成为知识服务研究的重要命题。知识演化路径是知识的产生、发展和消亡路线,相关研究不仅可以帮助研究人员更好地掌握ISLS领域的研究热点和演化趋势,而且能够以清晰的脉络呈现ISLS领域内部知识的发展特征、轨迹和影响过程。本文在充分了解国内外相关研究的基础上发现:主路径分析是追踪引文网络中关键路径的常用方法,能够描述一个领域的演化轨迹。但是基于该方法进行知识发现的研究大多使用单一的路径搜寻方法展示知识演化过程,忽略了主路径识别方法间的视角差异;并且已有研究大多忽略了引文网络中非核心文献及其研究内容,因此难以全面地从路径节点上发现研究主题的演变过程。为此,本文基于已有研究,提出基于主题词的知识演化路径构建方法,识别ISLS领域的研究热点并展示知识的演变过程。本研究的主要内容分为五个部分:绪论部分重点阐述本研究的目的与意义、国内外研究现状及趋势、研究方法以及主要创新点。第二章论述本次研究的相关理论与方法。首先描述基于引文网络的主路径分析方法;其次,简述文本挖掘技术,包括文献相似度、向量空间模型和潜在的狄利克雷分布(Latent Dirichlet Allocation,LDA)模型;最后,构建知识演化路径模型。基于第二章的相关理论与方法,第三章首先利用Pajek识别收录的ISLS领域我国国家自然科学基金(National Natural Science Foundation of China,NSFC)文献的后向局部主路径(Backward Local Main Path,BLMP)和前向局部主路径(Forward Local Main Path,FLMP),对比研究热点根源文献路径和知识传播路径的不同,结合关键词与扩展关键词构建研究热点演化路径(Backward Local Main Path based on Keywords,BLMP-K)以及知识传播路径(Forward Local Main Path based on Keywords,FLMP-K)。虽然关键词可以表达文献的主题内容,但是关键词一般由作者赋予、定义,其主观性较强,而且可能具有定义不规范的问题。另外,有些文章由于作者的自身原因、文献发表时间较早或者期刊本身的发表格式等问题,可能出现没有关键词字段的现象,仅仅以关键词为主题识别的数据基础,不能保证文献内容的全面性。因此第四章在第三章的基础上,首先提取Web ofScience收录的ISLS领域NSFC文献数据的最大连通子网,识别该子网的BLMP和FLMP。其次,本文将主路径分析法与文献相似度和LDA主题模型相结合,继而构建基于主题词的研究热点演化路径(Backward Local Main Path based on Topics,BLMP-T)和知识传播路径(Forward Local Main Path based on Topics,FLMP-T)。本文以引文网络主路径分析方法为基础,结合主题提取和文本相似度计算,将理论分析与实证研究相结合,构建了BLMP-K、FLMP-K以及BLMP-T、FLMP-T。本文能够从不同视角展现ISLS领域研究主题的演变过程和知识结构。在理论层面,本文在一定程度上推动了ISLS领域知识演化路径的相关研究,丰富了文献计量学分析方法的应用,对理清ISLS的演化进程具有一定的意义。在实践层面,能够帮助研究人员快速找到核心文献和关键主题,了解热点研究内容与方法,把握ISLS领域的知识发展态势,为相关科学研究与决策提供参考。