社交媒体中用户建模的关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xin3020abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着社交媒体的快速发展,信息过载已经成为社交媒体中的重要问题。面对每天大量更新的信息流,用户往往难以快速的发现令自己感兴趣的内容。因此,如何更好的分析和理解用户,帮助用户进行信息过滤以及兴趣发现,已经成为了社交媒体的主要任务和挑战。良好的用户建模,便是其中的重要技术之一。   本文主要针对微博,当前最为典型和热门的社交媒体类型进行研究。我们基于大规模真实的微博用户数据,对社交媒体中用户建模的相关研究问题进行深入分析与讨论,包括用户兴趣挖掘、用户发布行为建模、用户转发行为分析以及用户意图识别。论文的主要工作和贡献有:   1.提出了用户兴趣相关的隐主题模型,对用户的兴趣进行隐主题建模。社交媒体中已有的一些用户兴趣建模工作,大多数都是基于bag-of-words的假设,对用户发布内容进行收集,然后提取出其中的关键信息,如关键词、实体名词、标签及隐主题分布等,作为用户的兴趣模型。先前的工作,对于用户发布的所有内容都同等对待。然而用户发布的内容,并非都与其兴趣相关,尤其是在社交媒体这种噪声很大的平台上。基于经典的作者-主题模型,我们提出了用户兴趣相关的隐主题模型,对用户兴趣进行建模。通过引入隐式兴趣相关变量,我们尝试在作者-主题模型迭代过程中,去除与用户兴趣无关的噪声微博,以达到更好的兴趣建模效果。   2.针对用户的发布行为进行建模。用户发布内容是社交媒体中最重要的组成元素,然而很少有工作针对用户的发布行为进行研究,尤其是从个体用户的角度出发。受到早先社交媒体中用户分析的相关工作的启发,我们假设用户的发布行为主要受到热点新闻分布、好友内容分布和自身兴趣分布三个因素的影响。基于文本建模领域经典的混合分布模型,我们提出了用户发布行为混合模型。为了对模型参数进行更好的推断,我们借用当前社交媒体研究领域中热点新闻提取和好友影响力计算的相关工作,对热点新闻分布和好友内容分布进行计算,继而通过经典的吉布斯采样方法,对模型的其余参数进行推导。实验表明我们的模型比现有的一些用户建模工作有一定的优势。   3.从个体用户的角度出发对用户转发行为进行分析。转发是社交媒体中最为重要的用户行为,它不仅仅是社交媒体中信息传播的主要途径,更是用户兴趣和信息需求的重要体现。早先的转发预测相关工作,都是从全局的角度出发,预测一条微博是否会被任意的用户转发。我们在全局转发预测模型的基础上,结合个性化用户特征和内容特征,提出了基于个体用户的转发预测模型,以预测某条微博是否会被特定的用户转发。通过特征重要性分析,我们重点讨论了各特征对用户转发行为的影响,并找出与用户转发行为密切相关的重要因素。最后,在个体用户转发预测模型的基础上,我们模拟了一个社交媒体中的内容推荐系统,并取得了较好的推荐精度。   4.对用户意图进行识别。用户建模相关工作的前提,就是针对实际的用户进行建模。然而,社交媒体的迅猛发展,带来了巨大的潜在商业价值,因此吸引了大量具有商业意图的用户,例如广告商、内容发布者、组织群体和垃圾用户等。针对这些用户的建模意义并不大,而且容易造成建模算法的偏差。为了尽量识别出社交媒体中的普通用户,我们参考社交媒体中垃圾用户检测的相关工作,结合多种用户特征建立普通用户分类器,从大量商业账号中识别出普通的社交媒体用户。实验表明我们的普通用户分类算法能够达到很好的分类精度。   5.设计了一种社交媒体中的个性化推荐系统原型。结合先前的工作,我们对该原型系统中的关键模块:用户建模模块进行了深入讨论与分析,包括用户意图识别模块、内容建模模块、社交建模模块和面向实际推荐任务的混合模块。该系统通过对用户数据的收集,从不同的角度和粒度对用户进行建模以及模型更新,并针对不同的推荐任务制定推荐策略。该系统为社交媒体中的个性化研究提供了实验平台和理论基础,并进一步为社交媒体中的个性化广告投放做出了铺垫。
其他文献
作为依据已解决案例解决新问题的技术,基于案例推理呈现出其在提高复杂结构和未知结构决策问题上的精确性和有效性的重大前景。相似问题具有相似的解决方案是基于案例推理的
该文把专家系统技术、模糊集合、不确定理论与控制理论和方法结合,设计并实现了一个新型的用于过程控制的专家控制系统外壳ECSS.ECSS采用了黑板模型,其知识库能够分成多个知
乒乓球机器人系统涉及视觉测量、模式识别、物理建模和学习系统等,近年来得到了许多研究人员的关注。本文围绕乒乓球机器人系统中乒乓球的轨迹预测、击打点的选择以及任意来球
考虑到工业生产过程的可靠性和安全性,工业上使用的仪表和电子类产品已不仅仅局限于对产品功能实现的要求。仪表的可靠性和安全性越来越成为仪表是否具有国际竞争力的极为重要的指标。在国外,尤其是欧美等国家,他们对于工业使用的仪表和电子产品建立了很多高要求的工业标准。这些标准保证了工业使用仪表的可靠性和安全性。遵循这一系列标准和理论设计出来的表在可靠性和安全性方面确实表现出了较大的优势,使得众多厂商受益。而反
两轮自平衡机器人是轮式移动机器人中的重要成员,具有体积小、重量轻、运动灵活等优点,具有很高的实用价值。自平衡机器人系统具有非线性、多变量、强耦合的特点,因此也具有很高
时滞现象在自然界中是广泛存在的。它往往会导致系统性能变差或恶化,同时它也是引起系统不稳定的主要因素。对时滞系统的研究一直是一个热点问题,引起众多学者的普遍关注。对于
社会化媒体(Social Media),是一种给予用户极大参与空间的新型在线媒体。它能极大的改变并丰富人们的上网及生活方式,因此关于社会化媒体数据的分析和挖掘是当今的一大研究热点
定位正在成为我们日常生活中的一个非常重要的应用,人们越来越多的体会到基于定位的服务给生活带来的便利。无线传感器网络可以很方便的得到位置信息,更有助于提高很多应用系统
该文就神经网络的基本结构和算法的C语言实现进行了探讨,构建了一个神经网络实现的框架,形成了一个可以使用的神经网络仿真软件NNES,并为其今后扩展和改进打下了良好的基础.N
随着自动控制控制理论和计算机技术的快速发展,移动机器人技术迅速发展,在工业、国防、宇宙空间、海洋开发、医疗救助等领域得到了广泛应用。履带式机器人是移动机器人中的一种