基于图结构的新闻文本聚类研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:Wangjun33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是自动化文本处理技术的主要研究方向之一,在新闻推荐、舆情分析、话题发现等多个领域都有着广泛的应用。针对基于词袋模型的文本表示方法存在语义缺失问题,本文提出了一种基于图结构的文本表示方法——文本语义图。为了最大程度地体现文本的语义信息,本文将文本的关键词作为节点并赋予权重,将关键词之间的语义关系作为有向边。基于提出的文本语义图,本文使用图卷积神经网络提取文本的高层特征并利用该特征对文本进行聚类。本文的研究内容主要包含以下部分:(1)针对生成文本语义图的任务,我们提出一种基于Bi-LSTM和Self-Attention的语义角色标注模型。利用该模型,可获取关键词之间的语义关系,用于构建文本语义图的边。此外,在模型中引入了语义角色知识库,利用语义角色知识可以更加有效的挖掘语义信息,进一步提升模型的性能。(2)针对基于文本语义图的文本聚类任务,我们提出了一种新的基于图卷积神经网络的图特征生成模型,定义新的图卷积操作,用于提取有向加权图的特征向量。之后,使用AP算法对图特征生成模型生成的特征向量进行聚类,从而实现对文本的聚类。本文使用Onto Notes语料库评估语义角色标注模型的性能,使用TDT语料库评估文本聚类的性能。实验结果表明,本文提出的基于图结构的文本聚类方法可有效提高文本聚类的效果。同时,本文还进行了大量的对比实验来测试模型结构和参数设定对性能的影响。
其他文献
由于各种原因,目前我国现阶段各地区的基础教育存在着巨大的差距和严重的不均衡发展的现象。其中最重要的一个因素便是资金问题。为了解决这个问题,社会普遍推行采用PPP模式
人们对生活环境的要求日渐提高,但是儿童这一社会中的弱势群体却往往被忽视,城市公共空间中儿童活动空间的现状令人担忧。随着二胎政策的开放,儿童的人群基数在不断地增加,这使得如何营造更符合儿童健康成长的户外游憩空间成为了城市公共空间建设的重中之重。城市居住区儿童户外游憩空间是儿童日常生活中最经常接触的户外活动空间,好的居住区户外游憩空间不仅能为住区儿童提供安全、便捷、舒适等方面的居住需求,更有助于儿童身
根据中国互联网络中心(CNNIC)发布的第45次《中国互联网络发展统计报告》,截至2020年3月,网络视频用户规模达到了8.50亿,网络视频的用户使用率为94.1%,我国网络视频受众群体庞大,未来发展潜力巨大。国内网络视频市场依然由腾讯视频、优酷土豆、爱奇艺三家主打内容的视频网站主导,与此同时,相比网站内容更重视用户互动的社区型视频网站——哔哩哔哩,近几年的发展也十分迅速,现在已经是市值80亿的上
经过近些年的快速发展,大体积混凝土在水利工程中占有很大的比重,其应用非常普遍。大多数的工程事实说明,许多大体积混凝土结构都存在或多或少的开裂现象,而温度应力是引起开裂的最主要因素之一。所以,防止和限制混凝土的温度裂缝是工程中必须面临的关键技术问题。大体积混凝土的热力耦合分析一直是一项重要的研究方向,也是采取温度控制和防止裂缝措施的主要依据,具有重要的工程实践价值,因此开展这方面的研究十分必要。论文
情感分析作为自然语言处理的重要分支,受到了人们越来越广泛的关注。将情感分析技术应用于教学评价方面,可以帮助教育工作者及时发现学生对于课程的真实感受,便于进行相应的调整,从而更好的提升教育教学质量。目前,研究人员通常使用带有注意力机制的神经网络解决方面级别情感分析任务,但是这些模型大多没有考虑一个句子中不同方面之间的内在联系,同时,目前常用的全局注意力和局部注意力计算模型都有各自的缺点,无法充分挖掘
随着超级计算机的高速发展,分子动力学在研究生物大分子结构功能关系、寻找药物作用靶标、优化药物分子结构等方面发挥着越来越重要的作用。同时,随着天然无规蛋白这类构象复杂多变且难以用传统实验方法研究结构的重要生物大分子的发现,对于基于力场方法的分子动力学模拟的准确性需求也越来越高。近年来,越来越多的研究者们开始关注并投入对天然无规蛋白的结构计算方法研究。各类新的构象采样方法和无规蛋白特异性分子力场显著提
2020年全面建成小康社会最艰巨的任务是脱贫攻坚。习近平总书记指出:“小康不小康,关键看老乡。”“全面建成小康社会,最艰巨最繁重的任务在农村、特别是在贫困地区。没有农村的小康,特别是没有贫困地区的小康,就没有全面建成小康社会。”~((1))当前脱贫攻坚虽然取得了巨大成就,但也面临着如何巩固脱贫攻坚成果的问题。一些已经脱贫的贫困村出现了脱贫成果不持续、不稳定,甚至脱贫人口再次返贫的现象,因而做好贫困
2008年全球金融危机使我国实体经济受到了冲击,伴随我国经济结构的调整,虽然在2010年GDP增长率有所上升,但之后中国经济发展速度逐渐放缓,与此同时制造业企业成本问题突出,制造业成本优势不断减弱。本研究建立在国内外学者对成本行为理论相关研究的基础上,并进一步深化与拓展。成本结构决策作为内部管理决策,预期会受到企业内部和外部环境的影响,现已有相关文献表明外部需求的变化会影响企业成本结构,本研究在此
随着社会经济的发展,人民生活水平逐渐提高,消费观念日趋成熟,人们对房地产和旅游的需求也逐渐有了多样化、个性化的追求。旅游房地产既满足了消费者的需求,也为房地产和旅游企业的转型发展提供了新模式,但许多旅游房地产公司在投资项目前没有进行风险评估,也没有重视公司的投资风险管理,造成了一些不必要的损失。研究企业投资风险,可以帮助企业预先识别风险,及时采取应对措施以降低风险带来的损失,为企业管理风险提供科学
本文以分布式光伏并网发电系统孤岛检测为研究基础,开始介绍了国内外光伏发电系统及孤岛检测技术的背景和发展现状,阐述了孤岛检测研究的作用与意义,总结介绍了不同孤岛检测方法的分类与其各自的特性,对孤岛效应的发生原理、检测标准、有效性判断进行了详细的说明。然后,综合现阶段国外内光伏并网系统相关技术已取得的研究成果,对常见的孤岛检测方法进行深入的探讨和对比分析,梳理各种检测方法的特性和优劣之处。近年来,关于