论文部分内容阅读
微博具有用户多、消息数量大、更新快等特性,已成为人们获取信息、发表舆论的重要途径。针对微博的情感分析能够获取用户对特定话题的观点,从而挖掘微博背后隐藏的价值。对微博用户发布的内容进行情感分析,最大程度还原用户真实情感,将有助于政府控制社会舆论走向,有助于用户优化自身的购买决策,有助于企业有针对性地进行自我改进,提升市场竞争力。近年来,网络中不断涌现的网络流行语给中文微博情感分析带来了挑战:首先,微博中大量的网络流行语表达了用户态度分明的情感,而现有的情感词典大多并不包含网络流行语;其次,现有的分词工具不能正确识别网络流行语,从而降低了微博分句、分词的准确度;最后,网络流行语具有时效性,其时效性随着热度的增强或减弱,因此需要实时对网络流行语词典中的网络流行语进行添加和删除。综上所述,构建可实时更新的网络流行语词典是微博情感分析的关键。此外,现有的中文情感词典大多是将情感词汇简单地分为正向和负向,然后运用相应的语义规则获取中文文本的情感极性。但是,人们对于事物的情感态度往往不是简单纯粹的,而是复杂多样的。微博用户对于特定话题的情感态度不能只停留在好与坏的层面,而应尽可能对情感类别细分,才能真实地还原人类的情感。因此,传统的正向、负向二分类情感分析方法已不适用于句式多样、词汇多样的微博情感分析了。针对以上两个问题,本文探索了实时获取和更新网络流行语的机制,并提出了一种构建细粒度情感词典的方法。基于以上两点工作,实现了微博文本情感的细粒度分析和微博话题的倾向性判定,主要研究内容如下:(1)网络流行语词典的构建:选择百度、搜狗输入法提供的网络新词作为构建网络流行语词典的候选词库,通过微博语料对候选词进行筛选获取网络流行语,并使用基于拉普拉斯平滑改进的SO-PMI判定其情感极性。将已构建的网络流行语词典与其他词典资源合并整理后,最终组成了包含网络流行语词典的微博领域情感词典。(2)基于微博领域词典的微博情感分析:首先根据已构建的微博领域情感词典计算微博句子的情感极性,然后引入中文问号、句号以及含语气网络流行语的对微博句子的情感极性进行修饰,最后引入微博句子的位置系数获取整条微博的情感极性。(3)微博话题倾向性的细粒度情感分析:通过基于《知网》语义的词语相似度计算方法将情感词典中的词语分为7类,并根据相似度的值为情感词语定义1-9的情感强度,与大连理工大学情感词典合并后构成了细粒度情感词典,最后实现了微博话题的细粒度情感分析。实验结果表明,本文所构建的网络流行语词典有效提高了分句、分词的准确度,也提高了微博情感分析的准确性。基于《知网》语义相似度计算方法所构建的细粒度情感词典可以实现对微博话题倾向的判定。