基于Spark的大规模社交媒体中用户兴趣建模研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:yinxiaomei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,挖掘社交媒体用户的真实兴趣已成为一个研究热点问题,用户兴趣在个性化广告推送、安全情报、网络舆情等方向具有重要的理论和实践意义。社交媒体用户发表的内容在一定程度上反应了用户的喜好,社交媒体中用户兴趣建模也引起了研究者的关注。本文深入研究了以微博为代表的社交媒体中的用户兴趣建模问题,并提出了新的用户兴趣模型。该模型同样适用于微信、Twitter等其它社交媒体。论文主要从构建方法和兴趣表示开展研究:(1)根据社交媒体用户发表的内容和时间,从主题模型、类别模型、兴趣词模型三个维度对用户兴趣进行建模。在兴趣主题模型方面,根据社交媒体短文本特征改进词袋模型,利用Word2vec构建特征之间的语义表示模型,采用句子中特征先后顺序构建次序图模型,在此基础上引入时间因素,提出了基于时间的用户兴趣主题模型用于抽取用户关注的话题。实验结果表明该方法的FM、AA和F等聚类指标相比目前新方法FSC-LDA分别提高了200.40%、46.50%、80.05%。在兴趣类别模型方面,基于传统的TF-IDF算法,综合考虑了词项、词性、词长以及文本归一化处理,提出了基于贝叶斯的用户兴趣类别模型来抽取用户爱好类别。实验结果表明新算法在微博短文本分类的F1值上表现更好。从而更好地描述用户兴趣类别。在兴趣词模型方面,基于兴趣词之间的语义关系,提出了用户兴趣词三层模型(Three-Layer Model,TLM)抽取用户兴趣标签词,同时考虑时间窗口和遗忘函数来增量更新模型。实验结果表明相比目前新方法TBIMM,TLM的命中率TOP-5和TOP-10上分别提高了10.70%和18.65%,TLM能够更好地过滤噪声词和追踪兴趣漂移。(2)综合以上三个维度提出了基于层次结构的用户兴趣混合模型。该模型从不同粒度和不同维度对用户兴趣进行刻画,能够更全面地描述用户的兴趣爱好。同时各个维度上的Spark并行化实验表明该模型能够及时快速处理海量的社交媒体短文本数据。
其他文献
传统上基于内容图像检索(content-based image retrieval, CBIR)系统因存在着使用者查询与图像特征间的语义鸿沟,所以通常无法满足使用者的需求。语义鸿沟为CBIR系统主要的缺
在无线广播环境中,一些传统的并发控制语法由于受上行通信频道的带宽和移动客户端电池能量的限制,并不适用于移动事务中。当数据访问方式被扭曲时,这些方法的性能很差,而且本
普适计算技术是计算技术中前沿的研究之一,为我们的生活和工作提供了多种多样的服务。论文结合当前国内外建筑工程质量管理技术的现状和发展趋势,分析了实施建筑工程质量管理
无线通信近些年来飞速发展,人们越来越多的在工作、学习和生活中使用无线通信方式进行网上浏览、数据传输等工作。无线通信应用于智能巡检系统中可以提高任务下载和任务结果
编码结构光已成为目前结构光几何重建的主要方向,通过对条纹进行编码来标记物体的空间信息,再对光栅图像中的编码条纹进行解码,利用数学理论,即可求得物体的空间三维坐标。因此,编
3G网络的普及加速了人们迈向互联网时代的步伐,通信运营商拥有庞大的3G用户数量,越来越多的研究人员加入到3G网络数据分析与研究的行列中。但是目前对于3G网络数据的研究主要
近年来,随着数据量和计算能力的增长,越来越多的数据处理任务使用集群来完成。为了进一步提高编程的灵活性和作业执行的效率,在MapReduce的基础上出现了Pig、Hive等各种不同
进入21世纪以来,在嵌入式技术、无线通信技术和分布式技术的带动下,无线传感器网络技术发展迅猛,日趋成熟,并已突显成为无线网络研究领域的热点之一,其在军事、医疗、工业、
近几年来P2P技术的快速发展给用户带来了丰富和便捷的网络共享资源,然而P2P网络的开放性引发了带宽、安全等方面的问题,因此对P2P流量进行识别和进一步的管理十分重要,本文结
银行业之间的竞争,在一定程度上体现在各银行为争夺优质客户资源而竞争。为了提升客户满意度,各银行借助了信息化手段。传统的客户关系管理作为银行客户管理的一部分,在个人金融