微博用户社会关系离线挖掘算法的研究

来源 :北京交通大学 | 被引量 : 8次 | 上传用户:cloudzhu429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网和移动通信技术的飞速发展,社交网络平台吸引了大量的活跃用户,用户间的社会关系形成了错综复杂的网络图。如何挖掘网络图中的潜在信息已经成为当下研究的一个热点。微博用户社会关系挖掘是其中的一个重要研究方向。它通过评估微博用户之间潜在关系强度,找到目标用户的潜在关系圈,进而可以实现用户追踪、链接预测、好友推荐等。本文在对基于离线微博数据的社会关系挖掘算法进行了研究的基础上,提出了一种新的挖掘模型以更为全面科学地评估用户之间的关系,进而找出用户的关系圈。论文的主要工作包括以下几个方面:首先对微博社会关系挖掘的研究现状进行了较为详细的研究,包括社会关系指标建立以及评估模型两个主要方面。同时总结了当前研究方法的不足,包括:现有模型的评价指标种类较少,模型设计时忽视了微博网络的部分特征,指标融合时采用简单加权求和,没有考虑到不同用户的行为偏好对融合评估的影响。进而,本文提出了基于多维度用户相似度信息融合的自适应微博用户社会关系离线挖掘算法。该算法从虚拟微博图、POI数据、虚拟用户图、用户-微博二部图、背景数据等五个角度入手,提出了相应的用户关系评价子算法,并提出了一种基于最大似然度的微博用户社会关系评价模型(Decision Algorithm Model based on Maximum Likelihood,DAMML)对五个指标的用户关系评价信息进行综合决策。通过分析该综合决策信息,可以找出目标用户的潜在关系圈。本文提出的五个用户关系评价子算法如下:●结合虚拟微博图的用户兴趣关系评价算法(Interests of Users and Virtual Microblog Graph,IUVMG),该算法使用LDA模型,将用户评论、点赞等行为信息添加到用户兴趣特征矩阵中,提升用户兴趣关系评价的准确性;·考虑行政区域划分与签到信息的用户活跃位置相似度评价算法(Administrative Region and User Check-in Information, ARUCI),该算法由用户活跃驻地提取、考虑相遇时伺与好友影响的活跃位置相似度两部分组成,解决了微博网络部分用户签到数据稀疏的问题;·结合图出入度的共同好友及扩展好友的用户关系评价算法(Out-in Degree and Mutual Friends, ODMF),该算法考虑用户节点的出入度,提出虚拟用户的概念,将算法推广到了二级好友;●考虑交互行为倾向的用户交互紧密度算法(Tendency of User Inter Behavior,TUIB),该算法解决了微博用户间交互行为的非对等性问题;●用户背景属性的用户关系评价算法(User Background Information,UBI),该算法使用主成分分析法提取用户背景属性的主成分,降低了属性间相关性对评价结果的影响。最后,本文自主开发了一套新浪微博爬虫,抓取了大量微博数据,利用该数据对本文提出的算法进行了测试,并与经典算法进行了比较。实验结果验证了本文提出的算法具有较高的有效性与准确性。利用提出的模型,论文还设计并实现了一套基于B/S架构的微博用户社会关系离线挖掘系统。
其他文献
随着因特网的广泛应用,网络安全得到越来越多的重视。传统观念认为,对于无线、有线和光纤等传统通信,连接是计算机受到攻击的必要条件。当电子设备与互联网断开连接时,其中的
随着无线通信业务的发展越来越多元化,用户对通信的要求也越来越高,导致频谱资源匮乏的问题日趋严重。认知无线电作为能有效缓解频谱资源紧张现状的重要技术,成为未来无线通
集群移动通信系统在指挥调度中具有不可替代的作用。CDMA系统相比于FDMA和TDMA系统更容易获得大的系统容量。第三代移动通信系统标准全部采用了CDMA技术,其中有我国提出的具
随着科技的高速发展,信息网络已成为推动社会进步的巨大动力。现有网络存在安全性、路由可扩展性、移动性等不足,严重地阻碍互联网长远健康发展。一体化标识网络应运而生。一
随着商业的发展,商家对投放广告所产生的效果越来越重视,广告效果评估与智能播放是两个重要的研究内容。本文设计了一套智能广告播放与效果评估系统,通过采集广告受众的人脸
数字集群系统提供安全、可靠以及高速的语音和数据通信,在全世界取得了迅猛发展。目前,国外数字集群通信技术相对来说已较成熟,但是价格昂贵,安全性和保密性不足,而国内数字
采样是将模拟信号进行数字化转变的一种方式,在传统奈奎斯特采样过程中,为避免信号失真,采样频率不低于信号最高频率的2倍。然而随着科学技术的不断进步,人们所需要处理的数
随着嵌入式技术的迅速发展,嵌入式系统已经广泛地应用于人类生活的各个方面。社会对嵌入式人才的需求也不断增加,很多高校已经开设了嵌入式应用技术课程。由于该学科具有很强
本论文针对交替方向隐格式时域有限差分方法(Alternating Direction Implicit Finite Difference Time Domain method,简称ADI-FDTD方法)和弱条件稳定时域有限差分方法(Weakl
随着数字集群通信系统在我国应用的增加,开发具有自主知识产权的数字集群通信系统无论在经济角度上还是在安全角度上都意义重大。广播控制功能是数字集群通信系统的重要功能