微博客热点话题发现与跟踪技术及系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:huangxl2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客作为一种新兴的网络多媒体形式,在最近两年里得到了迅速发展与广泛应用,已经成为普通民众分享、关注、获取自己所关心信息的主要平台。然而微博的信息量太大,导致用户根本看不过来,无法及时知道微博客中的热点话题。而且在这些热点消息中,也存在一些暴力的、反动的、虚假的信息内容,这些信息会对国家安全、民众生命财产安全、企业信誉等构成威胁。热点话题发现与跟踪的研究可以较好的解决这些问题。  通过对热点话题的发现与跟踪,可以将微博数据组织为话题,以简洁概括的方式呈现给用户,用户便可以即时的了解到微博中的热点和舆论主题。本文在研究了微博客数据采集技术,热点话题发现相关的文本聚类算法、文本表示方法、文本相似度计算方法以及话题跟踪方法的基础上,提出了基于图结构模型的双层聚类算法,并在此基础上设计和实现了微博客热点话题发现与跟踪系统。本文的主要工作如下:  1)实现以Twitter为研究对象的微博客数据采集。分析了微博客数据采集使用到的关键技术:登陆授权、数据获取与解析等,使用定向垂直采集、元搜索主题采集、广度采集、高时效性采集等采集策略保证采集数据的有效性和广泛性。针对Twitter数据量庞大并且访问频率受限的问题,采用基于消息总线机制的分布式并行处理技术保证数据采集的快速性。  2)研究结合微博客特点的热点话题发现与跟踪技术。使用基于图结构的文本表示方法和相似性计算方法,对微博客数据进行双层聚类得到话题,然后根据热度计算获得热点话题并选取关键词对话题簇进行描述。在话题发现的基础上提出了适用于微博客的自适应话题跟踪算法。实验表明基于图结构的双层聚类算法有着不错的聚类效果,能够有效的进行话题发现。  3)设计并实现了微博客热点话题发现与跟踪系统。该系统分为微博客数据采集模块、数据预处理模块、热点话题发现模块、热点话题跟踪模块、热点话题展示模块,具有微博客数据采集、数据存储、数据预处理、热点话题发现、话题跟踪、热点话题展示等功能。该系统具有较好的检测效果和良好的用户体验,适用于实际的微博客热点话题发现与跟踪。
其他文献
人体检测、跟踪和行为识别是计算机视觉领域的重要课题,在智能监控、辅助驾驶、智能导航、人机交互等领域具有很好的应用前景。传统的基于彩色图像的人体检测、跟踪和行为识别
研究人员的主要任务是学习本领域的知识与研究状况,并寻求有效的方法来解决研究中的难题。对于大部分研究人员,尤其对于一些缺乏研究经验的研究人员来说,这并非易事。现有的学术
人体跟踪是计算机视觉中的重要研究课题,在安全监控、智能交通和军事等领域具有广泛的应用。目前,大部分人体跟踪系统和方法是基于单个视频图像序列的跟踪,其跟踪结果易受光照变
博客作为一种网络媒介,是用户进行信息分享、传播以及获取的平台,微博作为一种受欢迎的博客形式最近几年发展迅速。博客和微博网站用户数量巨大、每天产生海量文本数据,其中大部
近年来,随着智能终端的快速发展,无线网使用者也越来越多。无线网用户与有线用户主要区别在于其移动特性,所以对校园无线网用户移动行为进行聚类研究有助于提取具有相似行为的用
设备驱动是特定硬件设备或架构平台与操作系统交互的关键支持性软件部件,对硬件设备或架构平台的操作系统兼容性具有决定性影响。PKUnity86系统芯片独特的AMBA-x86架构使得针
EAST装置是我国自行设计研制的国际首个全超导托卡马克装置,EAST是一个近堆芯高参数和稳态先进等离子体运行科学问题的重要实验平台,它将是在ITER之前国际上最重要的稳态偏滤器
本课题对鲜花拍卖系统中拍卖通信和语音通信的原型系统展开研究与设计,利用FPGA技术实现语音网络通信,在SOPC系统中集成以实现拍卖系统的通信过程。主要内容是满足不少于五百位
在模式识别和计算机视觉领域中,人脸识别是一个被广泛研究的前沿课题。由于其具有隐蔽性、非现场操作性、便于理解等优点,使人脸识别技术被越来越多地应用于安全监控领域、人机
物联网被誉为21世纪人类第三次技术革命的代表。从技术架构上来看,物联网可分为三层:感知层、接入层和应用层。其中接入层负责接收感知层传来的信息并将其接入到各种私有网络