多特征融合的微博信息主题识别及热度预测研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:sincerity01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web2.0的飞速发展,在线社会关系网络如社交媒体成为互联网服务与应用的主角。截至2018年12月31日,微博垂直领域高达60个,月活跃用户连续三年增长7000万,达到4.62亿;Twitter的日活跃用户数量为1.26亿,月活跃用户达到3.21亿。大量的活跃用户通过社交媒体观察和了解世界,使得每天有上亿条信息在互联网上飞速传播。这些网络信息记录了人们参与、监督并影响世界的行为,为众多学术研究者提供了宝贵的信息资源。本文以新浪微博为主要研究场景,针对微博信息的组织与序化问题,提出多特征融合的微博信息主题识别及热度预测研究。具体包括两个方面,分别是融合浅层文本特征和深层语义特征的主题识别研究和基于自激励霍克斯过程的主题热度预测研究。在微博信息主题识别问题中,由于微博短文本在信息表达方面往往存在口语化程度重、网络用语多的问题,使得信息表达不集中。本文通过词汇特征词嵌入的方法提取深层语义特征,并与基于LDA的文本分布特征相融合,消除由于微博短文本的稀疏性与不规则性带来的数据处理问题。然后使用聚类算法实现主题识别工作。同时,针对不同文本表示方法,如LDA特征、TF-IDF值以及词向量进行对比试验。实验结果表明,使用融合特征的方法取得了更优的主题识别效果。在微博主题热度预测问题中,本文首先结合微博的用户特征与传播特征,设计微博主题的热度计算公式。具体包括用户的认证信息、推文数、粉丝数以及微博的转发数。然后基于微博信息的早期传播历史,预测微博主题热度的未来趋势以及具体数值。具体地,针对微博消息每次转发到达的时间序列信息,利用自激励霍克斯过程进行建模,从而刻画微博信息传播的动态过程,再结合主题热度计算公式,完成最终的预测工作。最后将预测结果与其它经典预测方法进行对比。实验结果表明,本文模型对主题热度预测有更好的性能表现。
其他文献
随着互联网的快速发展和移动音乐App的兴起,用户日常音乐交互行为渐趋频繁,音乐信息偶遇正逐渐成为用户获取音乐信息的重要途径。信息偶遇作为一种动态、多情境和多种因素复杂交互的信息活动,传统的线性描述性模型无法对其提供充分阐释和深入刻画。此外,在娱乐导向型的音乐信息环境中,音乐信息特征、用户心理状态、交互平台和社交网络等因素与任务驱动型的信息情境相比存在较大的差别,用户信息偶遇也势必会呈现出新的特点。
互联网时代带来了海量的信息,也使信息更容易被获取,然而海量的信息带给用户更多的是信息的真伪难辨和信息不对称,这为信息瀑布的产生提供了条件。互联网中信息的高速传播使信息瀑布现象产生的更加迅速和猛烈,这也极大地加剧了企业和政府对信息瀑布现象的管控难度。本研究将信息瀑布中个体决策行为作为研究对象,基于调节定向、有限理性和前景理论等个体决策的相关理论,改进传统的个体决策模型,从信息瀑布中个体决策的外部环境
知识图谱本质上是一种高效率、可解释的知识组织方式,通过多个知识单元之间的关系迁移,可以反映出更多事实知识。一些传统的知识组织方式如分类法、主题词表等尚未深入到知识的语义层面,难以表现出知识单元之间的多种关联,而知识图谱的出现恰好解决了这一问题。如今,知识图谱技术作为一种用于描述客观世界中概念、实例及其关系的新方法,得到了人们的广泛关注,合理利用知识图谱可以有效拓展知识探索的深度和广度。那么,如何低
近年来,在国家层面推进PPP模式的大背景下,全国各地陆续推出了一大批PPP示范项目,PPP模式在公共文化基础设施领域的应用,也受到各路资本关注。公共文化基础设施公益性特征突出,属准公共产品,具有适用PPP模式的天然优势。但PPP模式在公共文化基础设施建设领域推进中面临法律监管、政府定位、风险分担、项目吸引力及运行效果等方面的问题。为了更好的发展公共文化基础设施建设,吸引社会资本参与公共设施建设,解
随着信息技术和互联网的快速发展,学术期刊发生了从印刷出版到电子出版的重大转变,用户开始利用互联网浏览或下载学术论文,这一过程所记录下来的使用数据引起了科学计量学领域研究者的关注。本文选取了8个学科(“图书馆、情报与文献学”、“管理学”、“经济学”、“教育学”、“数学”、“气象学”、“海洋学”和“地球物理学”)被CSSCI或CSCD收录的53本来源期刊,收集其发表于2014-2017年的学术论文在信
为研究航天产品总装作业过程中的危险性,并对其作业过程中危险性较高的燃爆事故进行风险控制,本文从航天产品总装作业操作规程出发,对作业的各个工序开展系统、全面的风险分析和评估方法的研究。首先通过作业安全分析法(JSA)对航天产品总装作业过程进行危险源辨识,将作业任务进行分解,识别各工序内的危险有害因素,并对可能造成的事故后果进行定性分析。然后采用事故树分析(FTA)对总装作业过程中危险性大的发动机燃爆
科技的进步带动无人机产业的发展,如今无人机广泛应用于各行各业,但随之而来的无人机“黑飞”、“滥飞”现象也为无人机空中监管工作增加了极大难度,甚至已严重危害人身安全、社会治安和国家安全,因此对于反无人机技术的研究变得极为重要。无人机检测与跟踪技术是反无人机系统的重要组成部分,针对无人机的尺寸小、飞行高度多变、飞行环境复杂等特点,本文对基于视觉的无人机检测与跟踪技术进行研究。首先,由于目前没有公开的无
中国现代文学作品中的记者形象丰富多彩,在不同的历史时期表现出不同的形象特征,反映了当下的社会新闻观念。“五四”运动后文学作品中的记者形象,有清雅正直的报馆编辑、充满理性与气节的记者,也有丧失新闻操守的新闻人、品行不端的新闻记者。这些记者形象反映出社会小说中存在新闻真相、大众对于新闻的社会功能认识较为粗浅、片面看待新闻记者的职业属性。国民党政权建立后文学作品中的记者形象,有着较为明确的新闻理想,追求
网络舆情事件中的网民情感,对网络舆情的走向有着至关重要的影响。新时代下,舆论在网络空间的内容载体不再是单一的文本,转而向文本结合图片或者是短视频。同样,在网络舆情事件中,网民情感表达的载体也同样在发生变化,从单一的文本发展至文本结合图片等。当前网民情感识别研究,多基于文本这一单模态,缺乏对网民在网络舆情事件中发表的图片以及文本和图片相结合内容的关注。针对当前研究不足,本文从多模态融合视角出发,结合
当今中国城镇化不断推进和发展的时期,越来越多乡村的年轻人开始向城市迁移。在这样的现实背景下,农村家庭争先恐后进城为子女买房成为社会上普遍的经济现象,同时更是一种值得深入研究的社会现象。从中可以看出,中国乡土社会的基本结构正在瓦解,代际支持机制发生转变,亲代与子代之间的代际关系呈现“互惠与失衡”的特征。本文基于对东北三家村的农户进行田野调查,尝试将农村家庭帮助子女在城市中买房的行为置入家庭代际关系中