论文部分内容阅读
作为一个社会化媒体,微博的应用已经深入到人们的日常生活中,成为大家发布和传播信息、获取知识的重要平台。文本是网络信息的主要载体,包含着网民的观点与思想倾向,对网络舆情分析和话题发现具有重大应用价值和研究意义。然而,社会化媒体上的大部分文本信息都属于短文本,短文本信息的不完整性、海量性和奇异性导致舆情分析和热点话题发现十分困难。本文首先分析了中文微博信息的特点,然后结合国内外话题发现的研究现状和相关技术,提出一个适用于中文微博的热点话题发现方法。论文主要做了以下几个方面的工作:(1)短文本固有的特征稀疏和样本类别分布不均衡等特点,使得计算普通文本特征权重的方法难以直接套用。为此,提出一种针对短文本的基于综合类频的特征权重算法。该算法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。(2)采用隐含语义分析的方法对微博文本进行分析。传统向量空间模型通常基于特征词的匹配,但网络文本中存在大量的同义、多义词,导致文本相似度的评估结果不够准确。本文对原始的词条-文档矩阵进行奇异值分解,取部分奇异值较大的特征构成一个语义空间,最大限度保留了原矩阵中的有用信息,大幅降低了向量空间的维度。(3)提出基于层次和划分的混合聚类算法。层次聚类方法的特点是精度高,但耗费时间较长;而基于划分的K-means算法聚类速度快,但初始输入参数的随机性会导致聚类结果不稳定。本文在分析了基于层次和划分聚类算法各自的优势与不足之后,提出将基于层次和划分的算法相结合的混合聚类策略。该算法首先对数据集进行凝聚层次聚类,得到聚类个数和初始聚类中心后,再用K-means聚类进一步细化。实验结果表明,该算法在一定程度上改善了话题发现的效率和准确率。(4)根据提出的微博热度的定义,结合综合类频特征权重算法、层次与划分混合聚类算法与隐语义分析模型,提出了基于隐含语义分析的微博客热点话题发现策略,并对其进行验证实践。实践表明,该策略解决了向量空间模型中高维度和同义词问题,所得微博话题更接近真正的热点话题。