基于众包的微博热搜知识图谱的构建与研究

来源 :安徽理工大学 | 被引量 : 1次 | 上传用户:damoxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,新浪微博这种新型社交媒体深受广大网民的喜爱,成为日常生活中必不可少的一部分。微博每天产生大量的数据,尤其是热搜话题中隐藏着众多的信息。为了实现从海量的信息中了解信息间错综复杂的内在联系,知识图谱应运而生。知识图谱以语义化、结构化的方式对碎片化的信息知识进行管理,详细描述了微博热搜中的概念、实体及其间的关系。如何对微博热搜展开更深入的研究,从微博热搜内容及评论中的关键信息进行提取,利用所提取的知识及其联系建立知识图谱,形成具有丰富语义性的知识库是本文构建微博热搜知识图谱所要解决的主要问题。本文主要基于众包构建微博热搜知识图谱,使用众包标注技术识别命名实体以及实体间的关系,利用Neo4j图数据库存储构建知识图谱,同时提出了基于微博热搜知识图谱进行情感分析,为使用知识图谱进行舆情分析的可行性进行了探索。本文主要工作如下:(1)针对微博文本短小、语言不规范、噪声多以及中文微博语境更加复杂等特点,众包标注具有高效、成本低等优点。提出了基于众包标注的微博命名是实体识别方法。利用众包平台上大量的众包者来对命名实体进行高效的识别。首先在众包过程中对众包标注者的能力进行评估,确定每个标注者的能力值;然后使用最大期望值算法对评估得到的众包标注者的能力值以及评估过程中产生的临时标签进行分析学习,过滤掉其中的噪声;最后根据优化的众包标注者能力值对微博众包标记的结果进行纠偏,从而确定最后的标注结果。(2)实现了微博热搜知识图谱的构建并基于图数据库Neo4j进行存储。首先阐述了图形化数据库的相关概念,着重介绍了 Neo4j图数据库的相关优点与使用。然后使用Neo4j图数据完成了对微博热热搜知识图谱的构建,对知识图谱构建流程的可行性进行了验证。最后在构建好的微博热搜知识图谱的基础上,使用Cypher语言对知识图谱根据需求进行相关查询。(3)实现了对微博热搜知识图谱评论层进行情感分析。在构建好的微博热搜知识图谱的评论层,分别使用卷积神经网络结合循环神经网络的方法以及基于BERT的方法分别在微博热搜知识图谱的评论层进行情感分析,之后将两种方法进行对比分析。最后在知识图谱的基础上进行舆情分析。实验表明,通过本文所提出的方法,能够有效地构建微博热搜知识图谱,并且在知识图谱的基础上进行舆情分析。因此,本文对知识图谱以及舆情分析的发展具有一定的实践意义。图[35]表[11]参[56]
其他文献
钢桥结构的焊接细节非常丰富,焊接细节的安全与否对钢桥结构的使用寿命和安全性能有直接的影响。关于钢桥的焊接细节疲劳可靠度的研究近年来是国内外学术领域钻研的热点课题
草甘膦是一种广谱、高效、低毒的非选择性除草剂,我国是草甘膦农药生产第一大国,由此带来大量草甘膦生产废水。草甘膦废水组分复杂,难降解有机物浓度高,通常采用化学氧化、生化法、化学沉淀等“物化+生物”法组合工艺,其中生物法因环保、运行成本低,成为其中关键步骤,然而传统活性污泥生物法悬浮生长,受水质波动影响大,出水不稳定。对此研究高效稳定的生物法处理工艺,具有重要现实意义。本文以负载高效微生物菌种的聚氨酯
捕获-再捕获模型是用于解决群体样本大小估计等问题的一种经典方法,在许多涉及数量估计的领域都有着广泛的应用。本文首先简单介绍了该方法的流程,几种基础的模型,以及R.M.Fe
随着交通事业的发展,钢管混凝土拱桥已在我国得到了广泛的应用。对于钢管混凝土拱桥,管内混凝土灌注是极为重要的施工工序,是结构完成受力转换的关键施工环节,对成桥后的拱肋刚度、承载力等都有一定的影响。本文结合大小井特大桥工程实例,对主拱圈管内混凝土灌注施工过程进行了力学性能分析,主要工作和研究内容如下:(1)对主拱圈单根弦管在灌注过程中的力学性能进行了研究。采用MIDAS软件建模,将主拱圈单根弦管的灌注
莫来石型SmMn2O5材料具有良好的NO氧化性能,有望应用在柴油车尾气净化中。本文主要研究了形貌和Sm位掺杂对SmMn2O5的NO氧化性能的影响,为该材料的实际应用提供依据。以NaCl与Na2SO4作为共晶盐,Sm2O3和MnO2为原料,采用熔盐法合成了直径约为150~500 nm,长度约为2~5 um的棒状SmMn2O5,合成温度(700~1000℃)和熔盐比例对样品形貌影响较小。NO氧化测试表
环核苷酸是生物体内重要的生理活性物质,被称为细胞内的第二信使。枣果实中cAMP(cyclic adenosine monophosphate)的含量是所有已知高等植物中最高的。为探究不同防裂剂处理对
目的:探讨CT肺动脉造影(CTPA)中Mastora栓塞指数与右心功能参数诊断急性肺栓塞(APE)的价值;确定使用Mastora评分评估肺栓塞指数与D-二聚体水平之间是否存在显著相关性;并确定诊断中国南方人群APE的D-二聚体水平的最佳阈值以及Mastora栓塞指数、D-二聚体及右心功能参数对APE治疗预后的评估。方法:收集我院2017年1月2018年8月因呼吸困难、胸痛在我院就诊并确诊APE资料
近些年来,随着计算机网络相关技术及移动智能设备的快速发展,流通在互联网中的数据呈爆发式增长,其中以图像和视频为代表的多媒体信息增长尤为明显。图像是多媒体信息检索中最重要的切入点之一,大规模图像的检索问题以及特殊图像的检索问题吸引了越来越多研究人员的关注,成为了近些年信息检索领域的重要研究课题。本研究课题主要解决多媒体信息检索中的图像检索问题,首先对基于内容的大规模图像检索中的特征提取与表示这一基础
菜心(Brassica campestris ssp.chinensis var.utilis)是一种营养价值和经济价值极高的蔬菜,由于农业生产者追求其经济价值而对菜心品种特性缺乏深入了解、盲目引种、栽培方
邻苯二甲腈树脂因其优异的耐高温性、阻燃性以及低烟雾和低有毒气体释放等特性,在航空航天、船舶、电子等领域受到广泛关注。但该树脂也存在熔点和固化温度高、固化反应缓慢等缺点,如何解决上述问题一直是本领域所关注的重要科学问题。本研究通过分子结构设计,合成了一系列新型邻苯二甲腈单体,利用傅立叶变换红外光谱(FT-IR)和核磁共振氢谱(1H NMR)对单体结构进行了表征,以差示扫描量热仪(DSC)、FT-IR