论文部分内容阅读
如今,社交网络已经成为了人们生活工作中不可缺少的一部分,而随着人们对于社交网络的依赖逐渐加深,社交网络也得到了飞速发展,人们也不再满足于推特微博那样简单灵活以短文本为主的社交方式。此时,以微信公众号为代表的长文本社交网络逐渐普及开来,人们可以通过微信公众号发布的长文本来全面细致了解身边乃至世界各地发生的一些奇闻轶事。微信公众号的出现,不仅为发布者表达关于某些事件话题的观点提供了平台,也满足了普通用户对于阅读的需求。除此以外,公众号发布者希望能够预测热门话题的趋势,并及时发现热门话题,这样可以为用户提供更好的阅读体验,也能更好地宣传自己的产品;而用户也会通过了解话题的趋势去关注一些热门话题。但是,微信公众号以微信为核心,存在着海量的用户,所以微信公众号发布者每天会发布海量的文本。如何在海量而又复杂的微信公众号文本集中检测出真实话题,同时预测话题热门的趋势与状态,是一项非常有挑战性的任务。在本文中,我们针对话题检测问题,提出了一种基于文本关键词提取、词向量嵌入、以及关键词聚类的实时话题检测模型(CEASE),同时为了使模型能够适应于海量多噪声的文本数据集,本文在此基础上进一步提出了话题的合并以及过滤策略,使模型在准确性和运算速度都有极大提升。对于话题热度预测问题,我们首先通过处理真实的行为数据来反映用户不同行为的影响力以及用户的行为偏好,再以此来定义话题热度。接着,我们引入经济学领域的巴斯模型,结合社交网络的典型特征,使巴斯模型能够满足社交网络的特点,以此得到了特征特异性的巴斯模型(FC-Bass)。另外,我们考虑了话题之间的协同与竞争关联,结合FC-Bass模型得到了话题关联和特征特异性的巴斯模型(FCA-Bass)。最后,为了满足用户了解话题热度状态的需求,我们设计了聚类算法从数据中估算出了话题热度阈值,避免了大量无意义的尝试。我们使用了微信公众号文本数据集分别对每种任务进行了详细的评估。实验结果证明,我们的CEASE模型对比已有的话题检测模型能有更高准确度以及更低运行时间,同时在热度预测方面,FCA-Bass模型也能取得更稳定而又更精准的结果。所以,本文所提出的模型对于实时话题检测以及话题热度预测任务能够取得非常显著的效果。