中文微博文本聚类与话题检测的研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:thirdeyes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术获得发展以来,微博这一社会网络新媒体获得了快速发展,一方面微博提供大量的可用数据,另一方面大量数据产生的同时也造成了数据分析的灾难。如何将微博数据按照人的理解迅速划分出有意义的类别,并进一步呈现出感兴趣的内容,成为微博平台下一个新的重要研究方向。由于微博文本短小,用户复杂等特性,传统的分析方法没有达到令人满意的效果。  本文所研究的中文微博文本聚类与话题检测主要包括三方面:数据预处理,微博的聚类,话题检测。论文的主要工作包括:  数据预处理方面,立足于对前人研究成果的归纳总结,首先采用了基于“长尾现象”的数据粗过滤机制来解决由于存在大量的噪声数据,导致的处理效率不高的问题;其次提出了“去除停用词”和基于知网语义关联扩展相结合的方法,该组合方法既保证去除弱表达词语,又改善了因数据模型和微博文本特性所导致的数据稀疏性问题和语义不完整问题。  微博聚类方面,本文主要以K-means算法作为基础算法,根据微博数据的稀疏性特点提出了一种自动确定初始值的K-means算法。该算法有效解决了K-means算法初始值选择的问题,并保证了聚簇的高内聚性。最后在K-means聚类结果的基础上,本文应用阈值融合算法,对聚簇区域进行合并,提高了聚簇间的相异性,达到高质量的聚类效果。  话题检测部分,承接前文改进的聚类算法,本文在最后通过分析用户打分算法,将其改造并移植到聚类算法内,实现了最终的微博话题检测算法。通过这种方法可以在话题检测中引入用户对话题关注程度以及参与程度等信息,改善单纯聚类话题检测的不足,实现话题微博的合理抽取;最后实验通过话题微博和关键词的联合呈现,提供了可以理解的话题检测结果。
其他文献
随着互联网的持续发展,人们对网络中内容的需求越来越大。当前基于TCP/IP的网络架构在网络控制、资源分配等方面的问题日益突出,互联网的重心已经从主机与主机之间的通信转移
随着科技的发展,计算机的计算能力越来越强,计算速度越来越快,但人类对高性能计算的需求也越来越高。除了增强处理器本身的计算能力外,并行处理是一种提高计算能力的有效手段
在网络多媒体通信中,视频压缩和传输技术起着越来越重要的作用。近些年来,许多视频压缩国际标准相继被提出,如MPEG系列标准和H.26x系列标准,它们被广泛应用于数字广播电视标
WebService技术框架具有完全的平台、语言的独立性和更高程度的抽象,用户只要遵守WebService的接口即可进行服务的请求与调用。基于Web服务的统一身份认证系统是指利用一个集
IMS(IPMultimediaSubsystem)是3GPP在Release5版本提出的支持IP多媒体业务的子系统,它的核心特点是采用SIP协议和与接入的无关性。在网络融合的发展趋势下,3GPP、ETSI和ITU-T都
医学图像分割问题一直是图像处理领域中的经典难题。大脑组织具有特别复杂的结构,为了得到脑部病变组织的尺寸、外观的量化信息和实现脑部结构的三维重构,脑组织图像分割显得
无线个人网络(WPN),作为一种新型的网络,由于其良好的性能特点和广泛的应用前景,正成为目前无线网络领域中研究的热点问题之一。在无线个人网络的诸多研究内容中,路由是保证无线
随着计算机技术的发展和网络带宽的提高,互联网上的图像资源变得越来越丰富,它们被大量的内嵌在HTML网页中,构成了一个庞大的“互联网图像库”。信息量的庞大和纷繁复杂使互
Web信息抽取是web领域的一项重要研究课题,研究范围涵盖信息检索、数据挖掘、人工智能等多门学科领域。Web信息抽取系统的智能性、准确性与适应性一直是该领域的研究重点与追
工作流引擎是工作流管理系统的后台核心,工作流引擎的设计是工作流管理系统设计实现的关键所在。针对目前工作流系统普遍存在的柔性差、互操作性差、开发成本高等缺点,通过对WF