论文部分内容阅读
随着Internet的飞速发展,人们的生活越来越依赖互联网,网络成为人们探讨问题、交流信息的主要平台。同样,学术界的交流重心也由线下转移到了线上,越来越多的研究成果以网络为载体进行传播和共享。然而,网络中学术资源的高速累积使得人们很难快速、准确地找出高质量多价值的需求学术文献和高技术水平的研究者与研究单位。对科技文献、学者和研究机构等学术实体的科技实力和权威度进行研究与评估具有很大的现实意义。 在异构混合网络链接结构基础上,针对学术文献、学者和机构三类学术实体的权威度进行了研究。利用学术文献引用关系、学者合著关系等三类实体间的六种关系建立了异构混合网络,根据该网络,借鉴PageRank和Co-ranking算法思想,建立了混合随机游走模型Co-AcademicRank算法,计算学术文献、学者和机构的pagerank值。学术文献实体的权威度评估问题,除关系网络外,还从学术文献来源(学者、机构和期刊)和学术文献自身有效特征两方面考虑,构建学术文献综合权威度评估模型。同时,针对模型在海量数据情况下性能急速下降的问题,基于MapReduce编程模式,对模型核心部分Co-AcademicRank算法进行了分布式化实现。 在期刊论文集上进行实验,从效果和性能两个方面评估了算法的优劣。对比经典PageRank和Co-ranking算法,分析发现本研究较前两者有更好的评估效果,并且在甄别高权威度信息方面有明显的优势,证明了本模型的有效性和优越性。同时,比较单机环境和Hadoop平台算法的运行时间,发现在大规模数据环境下,分布式算法的运行时间远远小于单机算法,验证了Co-AcademicRank分布式算法的高效性和性能稳定性。