论文部分内容阅读
当今世界,随着互联网技术的繁荣和蓬勃发展,产生了诸多网络媒体和应用,同时大量的互联网信息应运而生。网络评论就是这些互联网信息的重要组成部分。与一般客观文档内容不同的是,这些大众舆论的观点所蕴含的丰富主观感情信息,对互联网商家、潜在用户以及政府信息部门等都具有非常有价值的参考意义。然而,如果通过人工方式去挖掘这些庞大的信息,不但需要高昂的成本,而且效率底下,实施起来也较为困难。所以,利用计算机算法对互联网上非结构化的文本评论进行信息挖掘和文本分类的情感分析技术应运而生,这也就是自然语言处理相关研究蓬勃发展的应用方向之一。本文主要研究是面向中文文本情感分类的问题,以中文酒店评论为实验对象,前两章对问题的研究现状和基本技术进行了详细的介绍。然后,论文从两个方面针对现有研究提出拓展和改进。本文的主要工作以及成果如下:(1)论文提出一种基于语义向量空间泛化的情感词典构建方法。在结合多个权威词典融合之后,加入神经网络模型,并结合酒店评论数据共同完成词典构建目标。基本思想是从评论语义向量空间出发结合公式构建新的情感词典。在和领域内较为完备的情感词典进行对比的实验中,本文所提出的方法构建的情感词典能较好的辅助完成情感分类任务。(2)针对现有监督学习和规则情感分类方法的优缺点,本文提出一种基于语义规则和神经网络模型特征融合的情感分类方法。论文主要面向中文酒店评论的特点,将多层语义规则沿用到传统基于词典的分类方法上,加强了对语料文本的情感分析信息的准确度。之后本论文将特征方向作为切入点,提出一种基于特征融合情感分类方法,将规则化计算得出的情感得分以及过程中统计的情感信息,作为新的情感特征参数嵌入到模型特征集合模板中,再利用神经网络模型进行情感分类。相比一般分类方法,本文方法在特征表示和中文文本情感分类两个方面有较大的提升,并以实验证明本方法拥有较于普通文本分类方法较好的性能。