论文部分内容阅读
在大数据时代,挖掘社交媒体用户的真实兴趣已成为一个研究热点问题,用户兴趣在个性化广告推送、安全情报、网络舆情等方向具有重要的理论和实践意义。社交媒体用户发表的内容在一定程度上反应了用户的喜好,社交媒体中用户兴趣建模也引起了研究者的关注。本文深入研究了以微博为代表的社交媒体中的用户兴趣建模问题,并提出了新的用户兴趣模型。该模型同样适用于微信、Twitter等其它社交媒体。论文主要从构建方法和兴趣表示开展研究:(1)根据社交媒体用户发表的内容和时间,从主题模型、类别模型、兴趣词模型三个维度对用户兴趣进行建模。在兴趣主题模型方面,根据社交媒体短文本特征改进词袋模型,利用Word2vec构建特征之间的语义表示模型,采用句子中特征先后顺序构建次序图模型,在此基础上引入时间因素,提出了基于时间的用户兴趣主题模型用于抽取用户关注的话题。实验结果表明该方法的FM、AA和F等聚类指标相比目前新方法FSC-LDA分别提高了200.40%、46.50%、80.05%。在兴趣类别模型方面,基于传统的TF-IDF算法,综合考虑了词项、词性、词长以及文本归一化处理,提出了基于贝叶斯的用户兴趣类别模型来抽取用户爱好类别。实验结果表明新算法在微博短文本分类的F1值上表现更好。从而更好地描述用户兴趣类别。在兴趣词模型方面,基于兴趣词之间的语义关系,提出了用户兴趣词三层模型(Three-Layer Model,TLM)抽取用户兴趣标签词,同时考虑时间窗口和遗忘函数来增量更新模型。实验结果表明相比目前新方法TBIMM,TLM的命中率TOP-5和TOP-10上分别提高了10.70%和18.65%,TLM能够更好地过滤噪声词和追踪兴趣漂移。(2)综合以上三个维度提出了基于层次结构的用户兴趣混合模型。该模型从不同粒度和不同维度对用户兴趣进行刻画,能够更全面地描述用户的兴趣爱好。同时各个维度上的Spark并行化实验表明该模型能够及时快速处理海量的社交媒体短文本数据。