论文部分内容阅读
随着科学技术的快速发展,网络不仅成为人们信息交流的日常工具,也是一个影响人们生活的重要新闻传播工具,研究网络舆情具有重要意义。如今,网络信息资源十分庞大,仅一条微博的评论数量便可达到几千甚至上万条,微博评论的自动情感倾向性分类可以快速且准确地分析这些评论的褒贬态度。中文微博评论情感倾向性分类的基础是中文分词,中文分词的性能影响着情感倾向性分类的处理性能。本文主要研究的是基于中文分词的微博评论情感倾向性分类方法。 首先,本文提出了一种基于双哈希结构的整词二分词典,该词典机制适用于逆向最大匹配分词方法,在与已有的整词二分词典机制的对比实验中,本文提出的词典机制表现最好,能够提高逆向最大匹配方法的分词速率。 然后,由于微博用语中新词出现率较高,本文选择了未登录词识别能力较强的条件随机场分词方法进行分词处理,并改进了其在成语识别方面的不足。实验表明,优化的条件随机场分词方法的处理结果更为准确。 最后,本文利用辅助的情感词典对文本进行情感倾向性分类,所使用的分类方法共分两步:第一步,对文本进行中文分词处理,并计算文本中所有句子的情感值;第二步,根据文本中所有句子的情感值计算文本的整体情感值,并根据情感值对文本进行分类。实验证明,所使用的情感分类方法能够达到对文本进行情感分类的目的。 本文设计了微博评论情感倾向性分类系统,该系统能够自动下载微博的评论文本,并且进行情感分类。该系统的优点是使用简单、易于分析、处理结果比较准确。