基于链接重要性的动态链接预测算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:joyce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种社会网络,科研合作网络中的实体关系就是两个作者之间合作发表一篇论文。科研合作网络的一个重要问题就是预测两个作者之间的合作发表论文的情况,在数据挖掘中,这一问题即是链接预测。在科研合作网络的链接预测问题中,传统的方法一般基于图的拓扑属性计算或结合语义属性的分类,但已有的方法存在两个主要问题:一篇论文在计算机表示的网络中形成的多条链接,往往是被同等对待的,但实际情况是不同作者的联系对一篇论文的贡献是不一样的。另一个问题是在相关属性的计算过程中,均将历史数据同等对待,忽视了时间因素在链接形成过程中的影响,显然这是不符合事实的。针对以上两点,给出了一种基于链接重要性的动态链接预测算法。根据Digital Bibliography & Library Project (DBLP)中数据集的特点,对数据集进行一个预处理,包括连通分量的求解和两个过滤规则的过滤,以使得数据规模的缩减和数据的降噪,这样有利于提高预测的准确性和降低时间复杂度。预处理后,给出一种称为链接重要性的度量,并以此度量为基础,对常用的拓扑属性进行修正。在语义相似度的计算过程中,对向量空间模型的TF-IDF进行了改进,并且以链接重要性为基础,提出了作者单篇论文贡献值的度量,以衡量单篇论文在描述不同作者时的区别。结合修正后的TF-IDF和单篇论文贡献值度量给出语义相似度的计算公式。引入时间因素对上述的拓扑属性和语义相似度定义进行最终的修正,以动态的反映时间因素对链接形成的影响。以上述属性为特征属性,利用分类技术进行最终的预测。在DBLP数据集上进行多组对比实验。实验结果表明,该算法较之已有的方法,预测准确性有了较大的提高。
其他文献
随着互联网和通讯技术的飞速发展,以服务为中心实现资源共享和协同工作越来越为人们所关注。然而,在以服务为中心的开放式网络环境中,一个作业的完成通常需要位于不同安全管
现代大规模、高性能存储系统具有成千上万的用户和大量敏感数据,而且系统对安全性方面的设计考虑较少,其安全性也遇到了前所未有的挑战。传统的基于证书的访问控制模型存在着
本课题所依托的国家863项目“分布式密文全文检索系统关键技术研究”的主要应用场景是具有较高文档保密需求的政府机关和大中型企业。这些机构的文档保有规模和用户数量十分
由于机械操作的局限性,传统的机电一体化式温彻斯特硬盘在性能提升上已经遭遇瓶颈。而基于新型非易失存储介质的固态硬盘却拥有着极为宽广的发展前景,其潜力不仅表现为它被市
在经济全球化和电子商务的大趋势下,随着企业间竞争日益激烈、利润空间被大大压缩,节节高升的成本得不到有效控制,工作流程自动化与企业再造工程的需求越来越大,业务流程管理
随着信息技术的不断发展,不确定数据引起了学术界与工业界的高度重视,并得到了广泛的应用,使得各个领域保存了大量的不确定性数据。然而各个企业和部门的应用往往各自独立,数
物联网的目标是在计算机互联网的基础上,利用RFID、无线数据通信等技术,构造一个覆盖世界上万事万物的网络,目前在国内外科学界与工业界都属于研究的热门领域。物联网技术的
在互联网时代,个性化推荐系统得到广泛应用。在推荐系统中,推荐算法起着决定性的作用,而协同过滤算法为最为常用的一种推荐算法,采用基于用户的协同过滤对稀疏评分矩阵进行预
随着我国道路的发展以及汽车保有量的增加,交通需求不断增长,道路压力日趋严重。在影响道路交通运行的重要因素中,除了人、车、路因素,环境因素也是影响交通的重要因素。近几
对等网络(Peer-to-Peer,P2P)是Internet网上的覆盖网络,网络中节点彼此处于对等地位,既可作为客户机也可作为服务器,节点间借助一定搜索机制搜索资源并建立直接连接,交换共享