论文部分内容阅读
随着计算机技术的高速发展以及网络的普及,人与人之间的交流不再受到时间和空间的限制。相较于传统的沟通方式,人们更倾向于使用在线社会网络分享自己的生活,表达自己的观点。由此诞生出大量的社交应用,其中新浪微博以信息涵盖面广、数据传播速度快及人人均可参与的特点成为最受用户欢迎的社交媒体。在日常生活中,用户通过微博分享生活,并就新鲜事物表达自己的观点,因此微博文本数据很大程度上带有情感色彩。对于此类数据的分析可以把握用户的情绪状态及兴趣点,在分析舆论导向、政府决策或是商业领域均有较高的研究价值。本文主要研究为设计一套完整的微博情感识别方案。该方案主要通过情感词典匹配的方式实现微博情感分析。本文提出情感识别总体设计方案分为数据采集、文本处理和情感识别等部分。本文首先对目前流行的数据采集方法进行介绍,比较其优缺点,结合微博的特点选择网络爬虫作为数据采集方法。接着通过对微博数据的分析,设计文本预处理和中文分词方案。随后本文分析了传统的情感词典应用于微博文本情感识别的不足之处,提出了通过引入网络新词词典、微博表情词典以及微博领域情感词典,结合传统的情感词典,构建出应用于微博的综合情感词典进行情感识别的方法。并就网络词词典、表情词典和领域词典的构建作出详细介绍。接着对中文句式和词语搭配进行分析,设计出一套情感值计算规则。然后对情感识别方案进行系统设计和实现。最后将系统运行结果进行展示,同时进行对比实验,验证了在微博情感识别领域,本文提出的识别方法较之传统文本识别方法有着更高的准确度。