社交网络中长文本话题检测与热度预测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ahclgc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,社交网络已经成为了人们生活工作中不可缺少的一部分,而随着人们对于社交网络的依赖逐渐加深,社交网络也得到了飞速发展,人们也不再满足于推特微博那样简单灵活以短文本为主的社交方式。此时,以微信公众号为代表的长文本社交网络逐渐普及开来,人们可以通过微信公众号发布的长文本来全面细致了解身边乃至世界各地发生的一些奇闻轶事。微信公众号的出现,不仅为发布者表达关于某些事件话题的观点提供了平台,也满足了普通用户对于阅读的需求。除此以外,公众号发布者希望能够预测热门话题的趋势,并及时发现热门话题,这样可以为用户提供更好的阅读体验,也能更好地宣传自己的产品;而用户也会通过了解话题的趋势去关注一些热门话题。但是,微信公众号以微信为核心,存在着海量的用户,所以微信公众号发布者每天会发布海量的文本。如何在海量而又复杂的微信公众号文本集中检测出真实话题,同时预测话题热门的趋势与状态,是一项非常有挑战性的任务。在本文中,我们针对话题检测问题,提出了一种基于文本关键词提取、词向量嵌入、以及关键词聚类的实时话题检测模型(CEASE),同时为了使模型能够适应于海量多噪声的文本数据集,本文在此基础上进一步提出了话题的合并以及过滤策略,使模型在准确性和运算速度都有极大提升。对于话题热度预测问题,我们首先通过处理真实的行为数据来反映用户不同行为的影响力以及用户的行为偏好,再以此来定义话题热度。接着,我们引入经济学领域的巴斯模型,结合社交网络的典型特征,使巴斯模型能够满足社交网络的特点,以此得到了特征特异性的巴斯模型(FC-Bass)。另外,我们考虑了话题之间的协同与竞争关联,结合FC-Bass模型得到了话题关联和特征特异性的巴斯模型(FCA-Bass)。最后,为了满足用户了解话题热度状态的需求,我们设计了聚类算法从数据中估算出了话题热度阈值,避免了大量无意义的尝试。我们使用了微信公众号文本数据集分别对每种任务进行了详细的评估。实验结果证明,我们的CEASE模型对比已有的话题检测模型能有更高准确度以及更低运行时间,同时在热度预测方面,FCA-Bass模型也能取得更稳定而又更精准的结果。所以,本文所提出的模型对于实时话题检测以及话题热度预测任务能够取得非常显著的效果。
其他文献
当前平面传声器阵列结合三维声聚焦波束形成方法在阵列逆孔径方向存在伪声源的问题,且对背景噪声干扰的抑制能力较弱。而传统波束形成算法(DAS)在成像效果上,主瓣宽度较大,空
“二十一世纪,什么最重要,人才”!随着社会与时代的发展,竞争也越来越激烈。人才是企业的第一资源,企业之间的竞争,实质是人才质量与数量的竞争。而人才的获得,无外乎外部引
岩屑甩干机是钻井液废弃物处理领域中“钻井液不落地”系统最重要的配套设备,在海洋钻井平台使用过程中,常出现刮刀磨损严重、分离效率低、分离后固相含湿量高等问题。为了解
地名作为重要的基础地理和社会公共信息,在社会生活的各个方面都体现着巨大价值。随着经济社会的发展,当今地名信息不全、不新、不准确的问题日益突出,陈旧落伍的档案管理和
在交通日新月异发展的今天,我国修建了越来越多的大跨度桥梁来方便人们通行。如今,斜拉桥以其优异的跨越能力,成为了主流的大跨度桥梁结构之一。斜拉索作为斜拉桥的主要构件
本文基于碱矿渣胶凝材料(AASC),通过正交实验设计,系统探究了不同激发剂模数、碱掺量和水胶比对AASC力学性能和工作性能的影响;为了改善AASC的力学性能、收缩性能和微观结构
随着我国城市化进程的不断加快,交通拥堵已经成为了城市管理中一个不容忽视的问题。主干道作为城市的大动脉,往往承担着主要的交通负荷。因此,提高城市主干道的协调控制效果,
深度学习这个新的领域自从2006年被提出,到LeCun成功利用卷积神经网络(Convolutional Neural Network,CNN)识别手写数字,再到AlexNet成功对图片进行分类,已经经过了?几年的时间。任务也从最简单的图片分类、时间序列分析延伸到了空间分割、生成对抗网络等复杂的任务。和它的本源机器学习类似,深度学习也分为监督学习和非监督学习。得益于大数据的发展,监督学习仍然是更重要
综合评价和员工的利益息息相关,能够为员工晋升、培训、薪酬、奖金等提供依据。员工在组织中的角色内行为和角色外行为都是为了获得一个高的综合评价。研究组织中下属默契对
随着现代城市的高速发展,城市的人群密度呈现出了爆炸式地增长,同时城市人群行为的安全监控和自动化分析成为计算机视觉中一个重要课题,对防范和追踪重大公共安全事故具有重