【摘 要】
:
随着互联网与移动网络的普及,人们逐渐习惯关注网络热点事件并在网上表达个人情感。热点事件带来了海量的舆情文本数据,如何基于这些数据分析用户的情感导向是一个研究热点和难点。同时,情感分析是舆情系统中的关键步骤,有助于系统用户了解事件全貌、分析事件走势。舆情系统是能够自动采集并分析网络舆情数据的工具。系统使用大规模分布式爬虫进行全网多源舆情数据的自动化采集,然后使用处理模块对原始文本数据进行处理分析,为
论文部分内容阅读
随着互联网与移动网络的普及,人们逐渐习惯关注网络热点事件并在网上表达个人情感。热点事件带来了海量的舆情文本数据,如何基于这些数据分析用户的情感导向是一个研究热点和难点。同时,情感分析是舆情系统中的关键步骤,有助于系统用户了解事件全貌、分析事件走势。舆情系统是能够自动采集并分析网络舆情数据的工具。系统使用大规模分布式爬虫进行全网多源舆情数据的自动化采集,然后使用处理模块对原始文本数据进行处理分析,为用户提供各种报表、视图与总结,帮助用户全方位的了解舆情事件的进展。分析事件情感导向是舆情系统中极为关键的一环,粒度与准确度是影响情感分析效果的重要因素。目前大多数现有系统采用的正面、中性、负面的情感分类方式,较难表达人类情感的复杂性;同时对多语言文本中复杂的上下文关系处理较少,对文本长度有所限制。针对上述问题,本文以舆情系统为应用背景,围绕情感分析技术展开研究,设计了针对语码转换微博短文本与新闻长文本的两种情感分析算法,设计并实现了舆情系统的情感分析功能相关模块。具体工作包括以下几个方面:1)针对语码转换文本包含多种语言和多维度情感的问题,以BERT预训练语言模型为基础,提出了一种语码转换微博短文本的多维度情感分析方法。该方法改进情感多标签输入输出方式,针对语码转换任务语言多样性的特点使用不同预训练模型,并在NLPCC2018会议的公开数据集上进行验证,实验结果在五个情感维度(喜、哀、怒、惊、恐)上的F1值均优于多种情感分析方法,相较BCEL平均提升约为0.09。2)针对BERT模型文本输入长度有限的问题,对于新闻长文本情感分析任务提出文本截断与文本切分两种处理方法。文本截断方法包含截取头部、截取尾部和截取头尾三种截断方式;文本切分方法包含分块和分句两种切分方式,使用池化或填充方法固定文本表示维度,最后通过基于注意力机制的双向LSTM模型输出分类结果。新闻长文本任务使用INEWS互联网情感分析任务数据集上进行验证,文本分句方法较未修改的BERT模型取得更优的结果,准确率提升约为0.02。3)基于上述算法,设计并实现了舆情系统中情感分析功能相关模块,主要包括情感分析模块、爬虫模块、消息中间件模块、数据处理模块等。实现系统中的数据获取层及数据处理层,使舆情系统可以提供完整的情感分析功能。
其他文献
随着电商的逐渐发展与成熟,仓储物流成为人们日益关注的重要环节。为了提高物料运输效率并节省人力和物力,多机器人系统广泛应用仓储场景中执行货物运输,分拣,搬运等任务。然而由于多机器人可能产生的不确定性,影响仓储系统的长久稳定运行。因此基于不确定性的多机器人调度算法对于提高仓储系统运行效率并保证系统实时性至关重要。本文主要研究基于充电及运动不确定性的多机器人调度规划算法,并将此研究重点分为基于充电不确定
有序公众参与是社会和谐稳定,也是建设社会主义政治文明的重要内容。近年来,市民无论在社会关注的热点问题还是在政府日常运作中都表达了关切与参与意愿,成为社会治理现代化过程中的一项内容。与此同时,食品安全是市民每天面对且具有切身体会的话题,频繁出现的食品安全事件更将食品安全问题成为多年来的社会焦点话题,并引发了一系列舆论风波和社会不满情绪。为此,食品安全日益成为影响居民的公众参与行为的因素之一,因此本研
近年来,在我国虚拟角色相关的著作权侵权争议中,法院经常需要回答虚拟角色本身的可版权性问题。当涉案作品之间仅有虚拟角色相似时,那么只在虚拟角色本身构成独创性表达时,涉案作品才有成立实质性相似成立的可能。虚拟角色由实质特征构成,而实质特征包括基础特征和标志性特征,同时具备基础特征和标志性特征的虚拟角色受到版权法保护的可能性更大。在讨论虚拟角色是否能构成表达需要借助思想/表达二分法,划定虚拟角色构成表达
企业信息化系统在现代企业管理过程中发挥了重要的作用。目前企业信息化系统应用现状是:集团层使用企业资源计划对总体生产计划、采购、销售、成本、财务等进行统一管理;对于不同的产线开发不同的制造执行系统,对生产计划编制、生产执行、质量监控、厂内物资等进行管理。这个集团型企业使用多个信息化系统处理不同的业务,且这些业务系统都包含库存管理功能。目前库存管理功能分散于各个系统中,在实际应用中出现了一些问题,其中
本试验采用病毒分离培养、RT-PCR扩增、测序分析、致病性试验等方法,以探索山东菏泽地区商品肉鸭养殖场内樱桃谷鸭脾脏坏死、瘸腿症状的病因。结果显示,鸡胚培养发病鸭的肝脏和脾脏组织悬液分离出1株病毒;该病毒株S1基因与新型鸭呼肠孤病毒的同源性为94%~96%,与鹅呼肠孤病毒的同源性为95%,与番鸭呼肠孤病毒的同源性为49%~50%,与禽呼肠孤病毒同源性为44%~48%,从而确定该病毒株为新型鸭呼肠孤
Augmented Reality(AR)is an emerging new media tool that attracts the attention of marketers and scholars from different fields.AR is considered as a promising promotional tool for social media applica
侵害保护作品完整权的行为,不仅仅存在于未经许可而实施改编行为的情形下,即便改编权已经被转让或许可使用,仍然可能出现改编权与保护作品完整权之间的冲突。在基于合同而发生的改编行为下,受让人与被许可人享有改编权,但也可能因改编幅度过大而与原作品作者享有的保护作品完整权产生冲突。两项权利的冲突近年来有愈演愈烈之势,这会限制改编者的创作自由,进一步对改编作品的市场化产生不利影响。我国《著作权实施条例》第十条
在教育改革的大背景下,越来越多的目光聚集在基础教育上。然而传统的课堂教师大班授课模式已经难以满足当前家长、教师、学生的三方互动需求。为了改善上述痛点,我们设计并且初步实现了一种自动化的教学分析评估系统框架,主要由文本分析模块、知识点处理模块以及最后的综合分析模块构成。课堂文本数据属于短文本,针对短文本分类存在的例如特征稀疏、用语不规范、存在新词等难点。我们提出了一种多特征融合的适用于课堂教学文本的
网络社交平台中的舆情管控是信息安全领域的一个重要分支,其涉及信息的传播溯源、传播路径构建、话题预测、热点挖掘等关键技术。本文将从信息溯源以及传播路径构建两个角度展开研究。1)在关于信息溯源方面的研究中,本文设计了一种基于用户兴趣的信息溯源算法。该算法利用用户兴趣计算博主影响力、评论人,转发人影响力,同时结合用户的关注度以及时间参数利用排序算法对信息计算得分从而排序溯源。基于微博平台的实验显示,该算
终末期的心脏病最有效的治疗办法是心脏移植。但是心脏移植供体的不足,大量患者仍无法得到及时救治。心室辅助装置作为自然心脏的替代品,已成为治疗心力衰竭的重要手段。现有临床使用的离心泵主要采用恒速控制方式,这种方式会削弱循环系统血液原有的搏动性,长时间辅助后会导致血管形态学改变等一系列问题。本文设计模糊PI控制器,通过调制血泵的转速提高了离心泵辅助后主动脉压的搏动性。所取得的阶段性成果有:1、建立离心血