论文部分内容阅读
伴随着社交媒体的快速发展,信息过载已经成为社交媒体中的重要问题。面对每天大量更新的信息流,用户往往难以快速的发现令自己感兴趣的内容。因此,如何更好的分析和理解用户,帮助用户进行信息过滤以及兴趣发现,已经成为了社交媒体的主要任务和挑战。良好的用户建模,便是其中的重要技术之一。
本文主要针对微博,当前最为典型和热门的社交媒体类型进行研究。我们基于大规模真实的微博用户数据,对社交媒体中用户建模的相关研究问题进行深入分析与讨论,包括用户兴趣挖掘、用户发布行为建模、用户转发行为分析以及用户意图识别。论文的主要工作和贡献有:
1.提出了用户兴趣相关的隐主题模型,对用户的兴趣进行隐主题建模。社交媒体中已有的一些用户兴趣建模工作,大多数都是基于bag-of-words的假设,对用户发布内容进行收集,然后提取出其中的关键信息,如关键词、实体名词、标签及隐主题分布等,作为用户的兴趣模型。先前的工作,对于用户发布的所有内容都同等对待。然而用户发布的内容,并非都与其兴趣相关,尤其是在社交媒体这种噪声很大的平台上。基于经典的作者-主题模型,我们提出了用户兴趣相关的隐主题模型,对用户兴趣进行建模。通过引入隐式兴趣相关变量,我们尝试在作者-主题模型迭代过程中,去除与用户兴趣无关的噪声微博,以达到更好的兴趣建模效果。
2.针对用户的发布行为进行建模。用户发布内容是社交媒体中最重要的组成元素,然而很少有工作针对用户的发布行为进行研究,尤其是从个体用户的角度出发。受到早先社交媒体中用户分析的相关工作的启发,我们假设用户的发布行为主要受到热点新闻分布、好友内容分布和自身兴趣分布三个因素的影响。基于文本建模领域经典的混合分布模型,我们提出了用户发布行为混合模型。为了对模型参数进行更好的推断,我们借用当前社交媒体研究领域中热点新闻提取和好友影响力计算的相关工作,对热点新闻分布和好友内容分布进行计算,继而通过经典的吉布斯采样方法,对模型的其余参数进行推导。实验表明我们的模型比现有的一些用户建模工作有一定的优势。
3.从个体用户的角度出发对用户转发行为进行分析。转发是社交媒体中最为重要的用户行为,它不仅仅是社交媒体中信息传播的主要途径,更是用户兴趣和信息需求的重要体现。早先的转发预测相关工作,都是从全局的角度出发,预测一条微博是否会被任意的用户转发。我们在全局转发预测模型的基础上,结合个性化用户特征和内容特征,提出了基于个体用户的转发预测模型,以预测某条微博是否会被特定的用户转发。通过特征重要性分析,我们重点讨论了各特征对用户转发行为的影响,并找出与用户转发行为密切相关的重要因素。最后,在个体用户转发预测模型的基础上,我们模拟了一个社交媒体中的内容推荐系统,并取得了较好的推荐精度。
4.对用户意图进行识别。用户建模相关工作的前提,就是针对实际的用户进行建模。然而,社交媒体的迅猛发展,带来了巨大的潜在商业价值,因此吸引了大量具有商业意图的用户,例如广告商、内容发布者、组织群体和垃圾用户等。针对这些用户的建模意义并不大,而且容易造成建模算法的偏差。为了尽量识别出社交媒体中的普通用户,我们参考社交媒体中垃圾用户检测的相关工作,结合多种用户特征建立普通用户分类器,从大量商业账号中识别出普通的社交媒体用户。实验表明我们的普通用户分类算法能够达到很好的分类精度。
5.设计了一种社交媒体中的个性化推荐系统原型。结合先前的工作,我们对该原型系统中的关键模块:用户建模模块进行了深入讨论与分析,包括用户意图识别模块、内容建模模块、社交建模模块和面向实际推荐任务的混合模块。该系统通过对用户数据的收集,从不同的角度和粒度对用户进行建模以及模型更新,并针对不同的推荐任务制定推荐策略。该系统为社交媒体中的个性化研究提供了实验平台和理论基础,并进一步为社交媒体中的个性化广告投放做出了铺垫。