微博数据分析中的若干关键问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tanchishe0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Twitter、新浪微博、腾讯微博等的普及和流行,微博已经逐渐融入人们的日常生活中,成为人们日常生活交流的工具之一。微博的广泛使用产生了大量的数据。这些数据既包含了有价值的信息,也有一些无用的垃圾数据,甚至存在一些虚假的谣言消息。正因为如此,对微博平台中的数据分析越来越受到人们的关注,逐渐成为研究的热点。   本文主要研究了微博数据分析中的两类关键问题——微博中新闻信息可信性的判定和微博事件预测。微博新闻信息可信性主要研究微博新闻信息的抽取以及可信性判定。微博平台是一个开放的平台,每个用户都可以自由地发布消息,这使得平台中总有一些虚假错误的消息在有意或无意地被传播,部分虚假错误消息甚至可能对个人、企业或者政府造成严重的伤害,因此研究微博新闻信息的可信性,对于个人、企业以及政府都有重要的意义。微博事件预测旨在对微博的未来趋势进行预测,例如转发次数等,从而对微博的传播特征进行估计。微博事件预测的意义在于它可以为商家和政府部门提供决策依据,让商家制定最优的营销策略,让政府部门可以更好地进行舆情监控和应急处理。本文的主要研究贡献可以归为以下四点:   (1)提出了一种从微博中识别出有价值的消息和新闻的算法。该算法首先将微博文本提交到搜索引擎后得到返回的结果并对结果进行解析,然后结合URL可信性、微博与网页的相似性以及微博的新闻特征来判断微博新闻信息的价值。实验结果证明了该方法的有效性。   (2)提出了一种基于用户历史微博可信性的微博用户可信性评价方法。在判别用户历史微博的可信性过程中,我们使用了一种话题或事件无关的可信性评价方法。该方法在识别有价值的消息和新闻算法的基础上,对URL的可信性进行了更严格的检测,同时,增加了对微博相关的新闻标题的文本语义分析,并引入二次搜索对结果进行精炼。此外,我们还分析了用户可信度与微博中用户相关特征之间的关系,如用户的注册时间、是否实名认证、关注数、粉丝数等。   (3)提出了一种针对即时性新闻微博的可信性判定方法。该方法结合用户可信度和微博文本特征,通过机器学习的方法计进行可信性评价。在微博文本特征分析和选取时,我们结合了中文微博中特有的一些要素。   (4)提出了一个预测事件微博转发情况的算法,该算法不依赖于微博的链接结构图,而是通过对事件分类和微博转发走势的模拟来预测微博的转发情况。
其他文献
作为网格技术在制造业的应用,制造网格不仅具有动态性、开放性、自治性和分布性等传统网格的特性,还具有制造系统自身特有的多主体性、协同性、共享性和灵活性等特点,这些特
基于视觉的手势识别是当前人机交互研究中的一个重点和热点。本文总结了典型视觉手势识别即包括图像采集、图像预处理、手势分割、手势建模、特征提取和分类识别数个步骤的工
在生物信息、电子商务等领域,随着离散无序(non-ordered discrete)数据规模的不断增长,有效的离散无序数据空间(non-ordered discrete data space,NDDS)索引技术正逐渐成为关注的热
网络流理论是运筹学领域取得迅速发展的理论之一。到目前为止,应该说,无论从理论上还是实际应用中,网络流模型都是一个很成熟的模型。它的建立和求解算法的不断改进,为解决很多实
近几十年来,无线传感器网络以低廉的价格、独特的性能和灵活性带来了广阔的应用前景,当前,一种特殊的无线传感器网络——移动传感器网络正以它移动灵活、快速部署的优势迅速
随着通信和互联网技术的不断发展,无线传感器网络(WSN)早已可以解决大规模数据的采集和传输问题,但是已有的接入网技术仍制约着无线传感器网络与互联网等主干网络的互连。无源光
近年来,随着信息技术的飞速发展及多媒体应用的广泛普及,信息资源呈爆炸式增长。如何对数据信息进行安全高效存储,成为学术界和工业界的研究热点。分布式存储系统利用网络连接将
深度万维网蕴藏着海量的信息,由于其隐藏性,现有的搜索引擎很难搜索到其中的内容。目前还没有研究出很好的方法和模型来捕获其内容,很大程度上制约了人们获取更多、更有价值
机器学习的方法在生产和科研中都有着广泛的应用,而集成学习则是机器学习领域中一门重要的研究分支。集成学习是把一系列基学习器结合在一起再做预测的一种方法。在理论和实践
图像分割是图像处理、分析与理解、图像识别和计算机视觉研究领域的一个重要组成部分,也是一个经典难题,特别是对于普遍存在的复杂图像(如医学、自然)分割问题,目前并没有统