论文部分内容阅读
Web2.0技术获得发展以来,微博这一社会网络新媒体获得了快速发展,一方面微博提供大量的可用数据,另一方面大量数据产生的同时也造成了数据分析的灾难。如何将微博数据按照人的理解迅速划分出有意义的类别,并进一步呈现出感兴趣的内容,成为微博平台下一个新的重要研究方向。由于微博文本短小,用户复杂等特性,传统的分析方法没有达到令人满意的效果。 本文所研究的中文微博文本聚类与话题检测主要包括三方面:数据预处理,微博的聚类,话题检测。论文的主要工作包括: 数据预处理方面,立足于对前人研究成果的归纳总结,首先采用了基于“长尾现象”的数据粗过滤机制来解决由于存在大量的噪声数据,导致的处理效率不高的问题;其次提出了“去除停用词”和基于知网语义关联扩展相结合的方法,该组合方法既保证去除弱表达词语,又改善了因数据模型和微博文本特性所导致的数据稀疏性问题和语义不完整问题。 微博聚类方面,本文主要以K-means算法作为基础算法,根据微博数据的稀疏性特点提出了一种自动确定初始值的K-means算法。该算法有效解决了K-means算法初始值选择的问题,并保证了聚簇的高内聚性。最后在K-means聚类结果的基础上,本文应用阈值融合算法,对聚簇区域进行合并,提高了聚簇间的相异性,达到高质量的聚类效果。 话题检测部分,承接前文改进的聚类算法,本文在最后通过分析用户打分算法,将其改造并移植到聚类算法内,实现了最终的微博话题检测算法。通过这种方法可以在话题检测中引入用户对话题关注程度以及参与程度等信息,改善单纯聚类话题检测的不足,实现话题微博的合理抽取;最后实验通过话题微博和关键词的联合呈现,提供了可以理解的话题检测结果。