论文部分内容阅读
随着互联网的快速发展,人们获取、传播信息的方式发生了革命性的变化。尤其是在线社交网络(即社交网络服务,Social Network Service,SNS)的出现,改变了传统的信息扩散方式,社交网络已逐渐成为主流的信息发布和传播平台。事件(Event)是指具有主题,时间维度以及一组相关实体(如位置、人员、组织等)的抽象概念。本文开展社交网络上信息传播的数据挖掘和方法研究,通过对社交网络上事件产生、爆发和发展的研究,了解信息传播的模式和特点,进而为计算广告、数据新闻等实际应用场景提供有效支撑。具体的工作和创新如下:首先,本文提出了一种社交网络热点事件检测、追踪和演化分析方法。社交事件一般涉及时间、地点、主体等信息,可能关于时事政治、热门事件等,也可能是关于网络谣言、虚假广告等不良信息。反过来,人们可以通过社交网络上热烈讨论的内容来了解有什么事件发生。如何自动的发现这些社交事件及其演化关系,帮助用户过滤、组织管理信息是一个急需解决的任务。尽管之前有很多关于新闻事件和文档话题演化分析的相关工作,但是社交媒体带来了新的挑战:社交媒体通常是短文本,具有高维、稀疏、数据量大等特点;由于字数限制,用户一般会使用俚语或用简称来指代事物;一条文本通常只描述一个事件,无法从其本身挖掘事件共现关系。同时,社交媒体具有交互性,允许用户转发、评论,这为从用户角度分析社交事件演化提供了可能性。本文利用事件序列的检测和追踪方法,对推特上的大量数据进行了实验,实验表明本文提出的方法可以很好地在社交平台上检测并追踪事件。然后,基于事件检测、追踪和演化分析方法,本文提出了一种社交网络事件序列的表示和预测方法。当前发生的事件是与过去相关的,而且事件序列的发展是有内在模式的。理解这些内在模式可以帮助研究者更好地预测接下来发生事件的类型和发生时间。文献中,研究者主要使用两类方法来对事件序列进行建模,分别是基于特征的方法和生成方法(generative approaches)。基于特征的方法提取多种类的特征,然后训练一个回归模型或者分类模型来做出预测。然而,基于特征方法的表现依赖于特征提取的好坏。生成方法通常假设事件的演化服从一个随机点过程(例如泊松过程或者更加复杂的点过程)。但是,事件序列的真实分布往往是一个特定的点过程不能刻画完全的,而且模型的表现依赖于随机点过程的设计。为了解决这两类方法都有不足的问题,本文提出了一种新的时间序列的深度概率生成模型。模型对社交网络上检测到的事件序列进行低维表示,并结合随机点过程和变分自编码器,来更好地利用隐藏信息,获得下一个事件到达时间和种类的分布。在真实数据集上的实验证明了提出模型的有效性。最后,本文提出了一种社交媒体上的广告点击率预测方法。随着电子商务的迅速发展,社交媒体上的在线广告在近年来有着爆炸式的增长,美国每年的在线广告业务达到千亿美元量级。由于实时竞价模式的发展,在计算广告中,首要的任务是对每个广告设定合适的价格,从而使广告商的收益最大。在投放广告的收费方式中,按每次点击收费,即广告商按用户点击次数向投放广告的平台付费的模式,是最流行的广告交易模式。因此,准确的估计用户每次点击广告的概率直接关系到广告平台的收入。广告交易数据具有以下特点:一,广告交易数据非常稀疏;二,真实的广告数据通常有着极大的数据量。针对广告交易数据的以上特点,本文提出针对稀疏数据的因子分解机模型。在模型中,使用拉普拉斯分布对参数进行建模,可以产生较少的非零元素,并且能突出相关的特征和特征对,而且,本文设计了稀疏因子分解机的分布式实现。最后,大量实验表明了本文方法的有效性。