中文微博客热点话题发现技术研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:liyon_88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展以及Web2.0的出现,微博(Microblog)逐渐成为人们相互沟通、发表言论以及获取新闻的重要工具,因此及时发现微博中热点话题具有重要的现实意义。但是微博文本内容短小、特征词稀疏以及规模庞大,传统的文本处理方法并不适合对其处理。因此,如何快速、准确地发现微博热点话题已成为当前自然语言处理的一个研究热点。本文主要工作包括以下三个方面:(1)针对微博数据文本内容短小、特征词稀疏、数据噪声大以及文档数据规模庞大等特征,本文利用具有优秀降维能力的LDA主题模型对微博数据建模,其不仅有效解决了文本相似性计算的复杂度,还避免了传统文本建模方法存在的数据稀疏性问题。(2)基于划分的K-means具有算法简单、收敛速度快等优点,但它对初始聚类中心数K非常敏感。而基于层次聚类的CURE算法对孤立点不敏感,擅长处理非球型或大小不均的簇,且准确度高。综合CURE算法的高准确性和K-means算法高效率的特点,本文采用了CURE和K-means结合的两阶段聚类策略,这样既缓和了K-means算法对初始点敏感的问题,又不损失聚类的效率。(3)深入研究MapReduce编程模型和K-means聚类算法,针对K-means聚类算法特点,给出了MapReduce编程模型实现K-means聚类算法的方法,对海量微博短文本数据进行快速聚类。经实验测试,明显改善了聚类效率。结合以上的研究方法,完成了微博热点话题发现系统的设计与实现,该系统集成了数据获取与预处理模块、热点话题发现模块和数据展示模块三大块。
其他文献
下一代网络是电信网络发展的方向,业务控制方式和业务提供方式是下一代网络研究的重要内容。业务和传输的分离是下一代网络的基本特征,如何控制传输网络,支持开放业务开发,向用户
图像处理重点学科网格是中国教育科研网格上的一个典型应用,其目的是建立以资源共享和协作为核心的、服务重点学科建设的基础性支撑体系。资源包括数据资源和计算资源。在传统
针对国内半导体行业的现状,确定以半导体生产企业的扩散炉温度控制系统为研究对象。根据传统的扩散炉温度控制多采用常规温度控制仪表,存在生产工艺控制能力、自动化程度及生产
XML(eXtensible Markup Language,可扩展标记语言)凭借其结构简单、易于理解、自描述、可扩展、可跨越系统平台等特性,现在已成为Internet上数据表示和数据交换的事实上的标准
随着计算机硬件和3D扫描技术的快速发展,通过建立体数据场的连续模型的四维空间数据体的造型研究已经成为科学可视化领域中的热点研究内容,其研究成果已广泛应用于计算流体力
随着无线通信技术和互联网技术的飞速发展,移动通信业务从以前的语音业务逐渐向数据业务过渡。虽然传统互联网技术己经使人们感觉到网络所带来的便利和乐趣,但它缺乏可移动性
推荐系统通过预测用户对项目的喜好程度为用户进行信息过滤,应用知识发现技术生成个性化推荐。协同过滤已经成为个性化推荐系统的一种主要工具,但在许多推荐系统中,每个用户
最近的技术进步孕育出了一种新的无线传感器与移动对象网络(WSANs),这种网络能够监测客观世界,收集数据,根据监测到的信息做出相应的反应。这些网络可以是战场监视系统,建筑
数据是信息的载体,数据的完整性决定了信息的存储和表达效果,然而数据在搜集和整理过程中经常会出现随机缺失,而且数据集在信息化时代的指数级膨胀也增加了修复补全的难度。本文
本文提出了一种全新的处理视频对象变形的系统。该系统的目的是尽可能的减少用户的交互,同时提供较高的灵活性和较精确的控制力。它具有基于关键帧的用户界面。用户仅仅只需要