论文部分内容阅读
学科间的交叉和渗透是当今科学时代的一大特征。随着人类对自然现象认识的不断深入,科学研究问题越来越复杂化,越来越需要不同学科、不同专业的团队合作,才能取得较大的突破或影响。不同专业知识整合到一起,不仅能解决涉及多方面的问题,还可以推动新兴领域的进步。但困囿于跨学科用户储备的不足,导致一些跨学科项目在评审时被送至不善于评估项目所有部分的小组或审稿人而影响项目是否获得资助,这对跨学科的发展极为不利,因此本文开展跨学科用户的发现研究。随着Web2.0技术的逐渐成熟,以ResearchGate、Mendeley、科学网为代表的社交媒体逐渐成为学者们学术交流的又一新天地。在这类社交媒体上,来自不同领域的团队或个人经常就共同关心的话题从不同的角度、不同的切入点进行深度交流(如发表博文、添加好友、进行评论与推荐),这为社交媒体上跨学科用户的发现带来了新机遇,因此本文开展社交媒体上跨学科用户发现研究。科学网是由中国科学院、国家自然科学基金委员会等共同主办的中文科学类社交媒体,其提供的信息富含学术性,因此我们以科学网为代表,开展了“图书情报”、“计算机”、“新闻与传媒”、“高等教育”、“生物学”五个领域的跨学科用户发现研究。与常见的社交媒体功能类似,科学网也具有媒体与社交功能,因此本文分别从主题(即博主发表的博文)角度和关系(即博主社交关系)角度来进行跨学科用发现。围绕跨学科用户发现研究,本文主要工作内容包括以下四个方面:(1)从主题角度去发现跨学科用户,本文首先借助CNKI上采集到的科技文献摘要与关键词构建领域语料,然后通过Labeled LDA判别领域博文,最后根据领域博文的朴素贝叶斯分类结果确定博文的学科属性,进而划分博主学科属性和发现跨学科用户;(2)在运用社区发现算法过程中,本文发现当节点含有多个邻居社区且属于这些邻居社区的隶属度相等且小于设定的阈值参数时,多标签传播算法(COPRA,Community Overlap PRopagation Algorithm)随机地从邻居节点标签中选择社区的策略严重影响了算法性能,为此,本文提出了一种基于贡献度改进随机策略的多标签传播算法(COPRA_CD,COPRA based on Connecting Degree)。经在真实基准网和计算机生成网的测试之后,我们将该算法应用在科学网博客中“图书馆、情报与文献学”领域用户的好友关系网上,有效地发现了该领域内存在的重叠社区结构。(3)从关系角度去发现跨学科用户,本文首先在博主好友关系网上运用COPRA_CD算法发现学科重叠用户,然后根据好友学科领域分布构造学科重叠用户的学科亲缘关系树,再通过跨学科距离和领域内好友数目确定跨学科用户。(4)为了有效地融合基于主题层面和基于关系层面挖掘的跨学科用户,本文构建了一个跨学科用户推荐系统。该推荐系统可以实现根据研究方向与研究知识进行跨学科用户的推荐。此外,本文设计了定向问卷去测评所寻找到的跨学科用户可信度,也通过人工评分法测试了推荐用户的准确率。实验结果表明,本文的寻找到的跨学科用户和推荐系统中推荐的用户都具有较高的准确性。总之,本文研究工作不仅在理论上丰富了跨学科研究的方法,而且在应用上有益于跨学科评审人员的补充与参考。