基于深度学习的中文情感分析研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zxg520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国互联网络信息中心2020年4月的报告中显示,我国上网的群众人数已超过9亿,互联网络的普及率也达到了60%以上。这一数据一方面说明了人民生活变得更加信息化,但另一方面也提醒我们的社会正在面临着一次前所未有的挑战,如何处理好海量网络文本信息成为了一个迫切需要解决的问题。如何使用自然语言处理技术(Natural Language Processing)分析海量的网络评论文本成为了研究人员的研究热点。随着硬件科技的迅速发展,深度神经网络技术,又称深度学习在近些年成为了可能,并在自然语言处理领域取得骄人的成绩。国内外研究者也把这种技术应用在了中文文本情感分析任务上面,但以往关于中文文本情感分类研究有以下几点不足,第一,现有深度学习方法用于中文情感分析任务中大多缺少中文情感先验知识。第二,以往的研究大多训练出的模型只能完成单一文本任务,它忽略了自然语言任务都是有其关联性的,而任务之间的关联性信息是可以被利用的。第三,以往基于文本多任务联合损失函数中各个任务的损失函数权重大多是静态的,需要手工调参。本文主要针对于以上几点深度学习运用于中文文本情感分析任务的不足,开展了工作,主要研究和创新内容如下:(1)本文提出一种新的文本特征表示方法B-ECM,它对两种特征向量进行了拼接,一种是基于BERT预训练模型编码的语义特征向量,另一种是运用中文情感词典和情感规则方法得到的文本情感特征向量。本文在三个标准中文数据集进行了与基线方法BERT编码文本表示的对比实验,实验表明B-ECM在这三个中文数据集对比基线模型提升了平均0.6%的精度。在此实验基础上本文进行了词向量+ECM的基线方法对比实验,比只使用了词向量表示方法的情感分类模型精度平均提高了0.68%。上述两部分实验结果表明了B-ECM表示方法与ECM模块单独作用的有效性。(2)本文采用多任务学习思想来解决中文情感分类任务,基于这一思想提出了一种多任务模型MT-GSU,并通过在标准中文数据集上的实验,对比基线模型提高了0.82%的精度。以上的实验结果表明了多任务思想解决中文情感分类任务的可行性与MT-GSU多任务文本情感分类模型的有效性。本文在此基础上,提出将在计算机视觉任务中已经取得较好效果的基于不确定性同方差损失函数结合策略应用在多任务模型MT-GSU上,对比基线模型提升了1.21%的精度。(3)本文通过消融实验验证了本文提出的三个主要创新点结合的有效性,得到了以B-ECM作为特征表示方法,并以采用不确定性同方差损失函数结合策略的MT-GSU作为分类器的情感分类模型,其对比基线模型精度提高了1.27%。本文也在标准数据集上与近年来较为优秀的文本情感分类模型进行了对比实验,其结果同样表明与这些模型相比均有不同程度的提升。基于以往和本文的工作可以看出深度学习应用于中文文本情感分类是可行有效的。训练一个更契合中文文本的预训练模型,探索各个自然语言处理任务之间的相互促进关系与建立更加规范的中文语料库都是今后较为重要的研究方向。
其他文献
国内外经济环境的不断变化加剧了国内企业之间的竞争,如何提升企业核心竞争力是所有企业所面临的关键问题。从企业财务的视角而言,财务管理贯穿企业经营中的所有主要经济活动,建立完备的财务内部控制体系是企业竞争力的重要保障,具有举足轻重的意义。电力行业是国家重要能源产业之一,关乎国家经济发展、工业发展及民生等多项重要领域,电力行业的行业封闭性使供电公司在财务内部控制方面存在很多隐患。本文以蓝天供电公司作为研
互联网的普及促进了复杂网络的发展,如何学习一个低维稠密的向量来表征复杂网络中的节点以便进行分析成为了一个研究重点。变分图自编码器凭借其强大的生成能力已经成为复杂网络表征的常用方法之一。然而目前变分图自编码器的研究存在两个挑战。1)已有的变分(图)自编码器及其变体大都假设隐变量服从标准正态先验或服从一个融入了很多专家经验的复杂先验,但是在很多实际情况中很难确定采用什么形式的先验或者先验概率很难获取。
传感技术的迅猛发展使得图像成像系统逐渐完善,得到的图像信息呈爆炸式增长。这些信息之间既有互补性,又存在较大的冗余性。图像融合技术可以将多幅图像由不同类型传感器或同一类型传感器的互补信息融合至一幅图像上,并在消除冗余信息后,生成一幅新的图像。融合后的图像能够弥补单一图像的不足,并且可以提高图像信息的利用率,获得更加丰富且精确的信息,同时借助获取的信息来生成高质量的图像。图像融合技术已经被广泛地应用在
在我国,现如今胃癌已经成为第三大癌症,并且每年都会有40万人左右深受胃癌所带来的伤害。目前,在临床上对胃癌进行诊断的常用手段之一就是内窥镜检查。胃癌在发病时较为隐匿、不易被患者所察觉,早期经常会因为没有明显的症状而导致漏诊的情况出现,并且还具备易转移、复发和预后差等特点。据研究表明,内窥镜检查可以显著的减少亚洲患者胃癌死亡率。在检查过程中产生的大量内窥镜图片需要由专业的内科医务人员去进行初步筛选,
智能问答是指计算机通过分析用户提问,自动回答用户所提出的问题,是一种高级形式的信息服务。知识图谱本质上是一种围绕特定实体所构成的语义关系网络,由实体、概念以及它们之间的关系组成。将知识图谱拥有的丰富且庞大的现实世界知识注入智能问答模型中,将使智能问答模型的表示能力进一步提升,进而在面向事实型问答任务时,无论是用户意图的识别,还是问答中实体的识别都将更为符合现实世界的常识,从而从基础上提升智能问答系
小规模学校是乡村教育的薄弱环节,其中师资是短板。美国、印度、英国、法国、日本、韩国等均存在大量小规模学校,也曾面临师资困境。为了加强小规模学校的教师队伍建设,这些国家在保障教师数量、提高教师地位、促进教师发展等方面进行了有益探索,如按照工作量核定教师编制,提高教师综合待遇,建立教师发展共同体等,对我国乡村小规模学校教师队伍建设具有重要启示。
目的:探讨二步截骨联合生物型长柄假体植入治疗老年粗隆间骨折的疗效。资料与方法:回顾性分析2013年1月至2020年6月我院关节外科收治的74例老年粗隆间骨折患者。男性15例,女性59例,年龄67~98岁,平均年龄81.91±6.88岁。根据Evans-Jensen分类,I型1例,II型27例,III型12例,IV型25例,V型9例。47例(骨水泥组)使用骨水泥型半髋假体植入,27例(生物组)使用生
目的:肺癌是全球癌症相关死亡的主要原因,非小细胞肺癌约占肺癌病例的85%,许多非小细胞肺癌早期表现为磨玻璃结节(ground-glass nodule,GGN),20%-30%的GGN患者有一个以上的病灶。目前对导致单发和多发GGN的研究主要集中在治疗方案和基因水平的差异,二者病灶数量不同的机制尚不清楚,单发和多发GGN患者的血液学指标差异也未见报道。因为GGN病情进展或因为阅片过程中病灶不清楚而
近年来,汽车保有量逐年增加,寻找空闲停车位愈发困难,“停车难”问题日益严重。因此,在停车位数量无法大量增加的情况下,如何有效利用停车位资源成为目前研究的焦点。本文依托于吉林省科技厅重点科技研发项目“基于车联网的城市停车位智能服务平台的构建”,以校园为试点,在校园中模拟城市的情况。设计并开发校园智能停车系统,力图实现停车场的智能化。本系统采用热点技术与理念,将现有停车场智能化。首先,采用轻量级的Fl
在目前的工程应用与基础科学研究中,许多亟待解决的问题都可以被转变成求解最优化的过程。虽然传统的优化技术可以解决这些问题,但当问题变得更复杂更具挑战性时,它们便很难找到全局最优解。近几年来,随着计算机科学的发展,许多过去人类无法解决的复杂函数优化问题已经可以通过计算机来得到近似解。在求解过程中,人们创造了许多优秀实用的算法。元启发式算法作为一种随机优化策略,因为其能很好地解决复杂优化问题,所以它已成