论文部分内容阅读
随着网络信息技术的快速发展,文本挖掘领域日益受到关注,已经成为当前研究的热点之一。文本挖掘指的是从文本数据中获取有价值的信息和知识,最常用的一种方法就是利用文献耦合对现有文献进行回顾分析。传统的文献耦合网络是通过文献间的耦合强度构建的,只考虑了耦合关系,没有考虑文献内容间的相似性。为了更准确地刻画文献间的相似关系,本文在文献耦合网络的基础上添加语义信息,构建文献语义耦合网络,并对构建的网络进行聚类分析。本文的研究工作主要从以下三方面开展:首先,构建文献语义耦合网络。通过隐含狄利克雷分配(Latent Dirichlet Allocation,简称LDA)建模方法量化网络中节点的语义信息,将节点的语义信息与节点间的耦合关系相结合,在网络拓扑特征的基础上考虑网络的语义特征,借助社会网络拓扑势的思想构建语义网络的语义场模型,进而构建文献语义耦合网络。其次,优化模块度评价指标。由于本文构建的文献语义耦合网络既考虑了节点间的耦合关系,也考虑了节点的语义信息。因此,其相应的社区发现评价指标不仅要考虑社区内部的关系合理性,还需要考虑节点间的语义信息相似性。基于上述考虑,定义一个语义模块度评价指标。通过对比分析,验证语义模块度指标的优越性。最后,对网络模型进行聚类分析和社区发现。分别运用GN、LPA和Louvain算法对文献语义耦合网络进行社区发现,并根据网络的划分结果以及每个社区中包含的关键字信息分析不同社区的研究主题。同时,对文献语义耦合网络进行可视化特征分析,挖掘该网络的内在规律、研究热点和学科结构。通过实验结果发现,发现在文献耦合的基础上考虑文献内容后,节点间的联系更密切,更能准确掌握学科的发展动态和研究趋势。本文改进的文献语义耦合网络和语义模块度指标为研究文献的引证结构和规律、主题相似性及学科结构提供了一种新的研究思路,对文献聚类和信息检索有一定的借鉴意义。