论文部分内容阅读
随着Twitter、新浪微博、腾讯微博等的普及和流行,微博已经逐渐融入人们的日常生活中,成为人们日常生活交流的工具之一。微博的广泛使用产生了大量的数据。这些数据既包含了有价值的信息,也有一些无用的垃圾数据,甚至存在一些虚假的谣言消息。正因为如此,对微博平台中的数据分析越来越受到人们的关注,逐渐成为研究的热点。
本文主要研究了微博数据分析中的两类关键问题——微博中新闻信息可信性的判定和微博事件预测。微博新闻信息可信性主要研究微博新闻信息的抽取以及可信性判定。微博平台是一个开放的平台,每个用户都可以自由地发布消息,这使得平台中总有一些虚假错误的消息在有意或无意地被传播,部分虚假错误消息甚至可能对个人、企业或者政府造成严重的伤害,因此研究微博新闻信息的可信性,对于个人、企业以及政府都有重要的意义。微博事件预测旨在对微博的未来趋势进行预测,例如转发次数等,从而对微博的传播特征进行估计。微博事件预测的意义在于它可以为商家和政府部门提供决策依据,让商家制定最优的营销策略,让政府部门可以更好地进行舆情监控和应急处理。本文的主要研究贡献可以归为以下四点:
(1)提出了一种从微博中识别出有价值的消息和新闻的算法。该算法首先将微博文本提交到搜索引擎后得到返回的结果并对结果进行解析,然后结合URL可信性、微博与网页的相似性以及微博的新闻特征来判断微博新闻信息的价值。实验结果证明了该方法的有效性。
(2)提出了一种基于用户历史微博可信性的微博用户可信性评价方法。在判别用户历史微博的可信性过程中,我们使用了一种话题或事件无关的可信性评价方法。该方法在识别有价值的消息和新闻算法的基础上,对URL的可信性进行了更严格的检测,同时,增加了对微博相关的新闻标题的文本语义分析,并引入二次搜索对结果进行精炼。此外,我们还分析了用户可信度与微博中用户相关特征之间的关系,如用户的注册时间、是否实名认证、关注数、粉丝数等。
(3)提出了一种针对即时性新闻微博的可信性判定方法。该方法结合用户可信度和微博文本特征,通过机器学习的方法计进行可信性评价。在微博文本特征分析和选取时,我们结合了中文微博中特有的一些要素。
(4)提出了一个预测事件微博转发情况的算法,该算法不依赖于微博的链接结构图,而是通过对事件分类和微博转发走势的模拟来预测微博的转发情况。