基于复述技术的汉语情感分析方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:liongliong508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0的兴起和社会网络的迅速发展,人们以网络为媒介发表自己对某个事件或事物的评论和看法。产品评论作为最重要的情感信息来源,一直被学术界广泛使用。如何挖掘这些产品评论中所蕴含的丰富情感信息,成为当前自然语言处理(Natural Language Processing,NLP)相关领域的研究热点之一。复述是指使用不同的词汇来表达相同含义的句子或短语。由于复述具有广泛的获取来源,且可以引入丰富的语言特征,所以复述在NLP的很多领域中都有重要的应用。本文在深入分析汉语产品评论的复述特点基础上,从语义角度出发,探索语义和情感极性相融合的意见复述抽取方法。并将获取的复述知识应用于汉语产品意见文本分析,以缓解统计情感分析所面临的数据稀疏问题,从而提高了情感分析性能。具体地,本文从以下三个方面展开研究:(1)基于语素的汉语未登录词词义预测问题。汉语词义标注任务是语义分析的基础任务,可为其他中文信息处理任务提供有效的语义特征。未登录词的词义预测一直是制约汉语词义消歧任务准确率的瓶颈问题。本文以语素作为基础,在最大熵模型的框架下,重点研究内部特征和外部特征在预测未登录词词义方面的作用。实验证明,内部、外部特征的融合对未登录词词义预测效果有一定的提高。(2)融合语义和情感极性的意见复述识别。本文以意见要素为基本单位,探索语义和情感极性相融合的意见复述识别方法,并分析和比较了不同的复述识别方法。实验结果证明了融合语义和情感极性的意见复述识别方法的有效性。(3)基于复述生成的情感分类问题。本文通过复述生成方法对产品评论进行复述扩展,解决基于统计方法所面临的数据稀疏问题。本文在不同条件下进行情感分类实验比对和分析,实验结果证明引入复述生成对于提高情感分类准确率有显著提高。
其他文献
计算机技术的快速发展,信息资源的大量共享以及网络资源的限制,在多媒体服务和数字通信等应用领域,图像压缩/编码成了信息通信传输至关重要的技术。分形图像压缩编码以其新颖
NFC是近年来兴起的高频短距离通信技术,它的发展已经蔓延到我们生活中的各个领域,NFC技术以其高安全性,高可靠性以及比起蓝牙,红外等通信技术来说的适用范围广的优点迅速获得
多核处理器任务调度主要研究如何通过一定的调度算法将任务分配到多个并行的计算内核上执行,使任务完成总时间得以缩短。这一问题早已被证明是NP完全的问题。各国学者们针对该
车辆信息平台的智能化发展,使传统孤立的车载信息系统逐渐向支持远程控制、车联网的车载终端方向过渡。车辆信息平台的智能化体现在它能够与智能手机、云计算平台等相互连通,将
虚拟桌面架构是虚拟桌面技术中使用的基础框架中的一种,允许用户通过终端登录到指定的系统中,将系统运行的结果通过网络传递到客户端进行显示,同时将用户在客户端的鼠标、键盘操
人类的虹膜具有唯一性、稳定性、非侵入性等特点,虹膜识别技术是众多生物特征识别技术中识别率最高的方法之一。随着虹膜识别技术的快速发展,目前研究重点主要关注非理想条件下
近年来,随着数字化技术的飞速发展,大量印刷蒙古文文献资源(图书、期刊、杂志等)可以通过采用当下广泛流行的技术——光学字符识别(Optical Character Recognition,OCR),将其转换为相应的电子文档,但在转换过程中会遇到以下两方面问题。第一,现有的印刷蒙古文OCR系统采用基于字元切分的方法对蒙古文单词进行识别,但某些字体下的蒙古文单词很难被准确切分成字元,导致单词无法识别。此
学位
路径规划研究是机器人技术的重要组成部分,是移动机器人实现自主移动的关键所在。蚁群算法,顾名思义即是模拟蚂蚁族群行为的算法。蚁群算法的诞生最早是由来自意大利的学者M.Do
近年来,物联网RFID技术飞速发展,越来越多的RFID应用需要一个能够全面评价RFID系统的安全检测体系作为保障和支撑。然而由于RFID在原始设计上的开放性及各种协议标准不统一的
数据库(database,简称DB)已经广泛地应用到人们的生产和生活中,它可以高效的支持结构化数据的存储和查询,然而它需要用户了解数据库底层的模式知识和掌握结构化查询语言,这对于没有