基于关键词提取和BERT词向量的新闻文本分类研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:varylife
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网用户逐日剧增,网络中的新闻文本数量呈现出爆炸式的增长趋势,如何对这些海量的新闻文本进行高效的分类和管理,已经成为了当下热门研究课题之一。然而,网络新闻文本结构异于普通文本,传统方式将标题作为正文的一部分来处理,忽视了新闻标题的作用,导致分类效果不理想。因此,需要一种适用于新闻文本的文本分类算法对文本进行分类和整理,从中挖掘出有价值的信息。本文基于上述问题,以提高新闻文本分类准确率为目的,展开了基于关键词提取和BERT词向量的新闻文本分类研究,论文完成的主要工作如下:(1)基于BERT词向量和文本特征提取的新闻主题中心的获取。通过爬取新闻网站的新闻文本和其所包含的类别并进行分析,对新闻文本进行标注以获取有监督的语料库,并根据标注确定主题的个数。然后通过主题间的TF-IDF获得每个主题的特征词及其对应的权重,构建每个主题下的特征词-权重集合,并通过BERT模型将特征词-权重集合转化为特征向量-权重集合,并通过向量的加权和获得该主题的新闻主题中心。(2)基于TF-HF-IDF(词频-标题频率-逆文档频率)和LDA模型的新闻文本关键词提取。首先考虑到新闻文本自身的独特结构,提出一种新的新闻文本体征提取方法——TF-HF-IDF,并与传统LDA模型相结合构成一种面向新闻文本领域的t-LDA模型。在提取新闻文本的文本特征之后,t-LDA将根据之前所确定的主题个数进行聚类,根据获得的主题分布和主题的词分布,通过选取词分布的前n个词语作为关键词并根据其概率调整关键词的权重,来提取新闻文本的关键词及其对应的权重。(3)基于关键词和BERT词向量的新闻文本分类。通过BERT模型将每篇新闻文本的关键词转换为对应的词向量,构建每篇新闻文本的词向量-权重集合。再通过加权向量和运算获得关键词集合的中心向量作为文章的主题向量。最后通过该话题向量与各新闻主题中心向量的余弦相似度来判断对应文章属于新闻文本的类别,并通过实验寻找是否划分到该类别的最佳阈值。针对以上提出的研究方法,设计相应的实验,结果证明,本文所提出的算法具有良好的效果,相较于传统的LDA模型和BERT模型,在宏观精确率、宏观召回率和宏观F1值上分别提高了 11.2%,11.8%,11.6%和1.9%,2.1%和2.1%。图[24]表[17]参[68]
其他文献
长期以来,系统巷道的主要护巷方式为留设保护煤柱,所以保护煤柱的宽度及其稳定度对于系统巷道维护、煤矿安全高效生产有着重要的意义。因此,本文以潘三矿17191(1)工作面为工程背景,采用理论研究、相似模拟实验、数值模拟实验等方法,研究了切顶卸压护系统巷道以及顶板下山保护煤柱宽度优化,论文主要研究内容如下:(1)分析了 17191(1)工作面常规回采时,下山保护煤柱宽度对采场覆岩结构及活动规律、下山系统
钢框架节点对保证钢框架的强度稳定和变形都有着直接的影响。为提升钢框架结构的整体性能,研究重点对栓焊连接梁柱节点和外包式柱脚节点,采用有限元分析法分析节点的力学性能和构造对节点的影响,然后将节点传力特性简化为相关参数代入到杆单元钢框架整体模型,分析节点对整体结构的影响。文中主要结论如下:栓焊连接梁柱节点应力集中程度比全焊连接应力集中程度小,全焊连接节点的转角刚度比栓焊刚接的大。关于梁端翼缘构造方面,
近年来,人们对矿产资源开采需求量日益增长,地球浅部资源已处于相对匮乏状态,向深部资源开采则是必然趋势。井筒作为地下资源开采的重要通道,而目前混凝土是我国井筒的主要筑壁材料,一方面井壁混凝土在经过富水基岩段时必将长期承受高压水的作用,此外混凝土在浇筑与养护阶段其内部会产生孔隙、微裂纹等缺陷,这就会为渗透提供了重要通道;另一方面还可能遭受爆破荷载等引起的应力波或地震波等动荷载的影响。因此本论文为模拟井
机制砂在生产过程中会产生大量石粉,石粉堆积会造成环境污染、占用土地等诸多问题,威胁人类健康。合理资源化利用石粉,可以推动石粉的高值再生利用,实现绿色发展,维护生态效益,具有重要的经济价值。本文以石粉为调控途径,系统研究了浆体取代率对石粉砂浆抗压强度、微观结构和耐久性的影响规律,分析石粉与减水剂的互适性,优选减水剂。并且在石粉等体积取代部分水泥浆体的基础上,进一步采用石粉等体积取代不同比例集料,扩大
人工冻结施工技术与其他施工方法相比,有着良好的抗渗透性能以及对邻近环境零污染等诸多优点,广泛应用于复杂环境下隧道工程施工中,其中,冻结法施工期冻结壁解冻温度场的演化规律一直都是实际施工中关注的重点。本文以北京复八线地铁隧道局部水平冻结施工为工程背景,采用理论分析、模型试验和数值模拟相结合的方法,对考虑冻结壁温度梯度的隧道自然解冻温度场演化规律进行了研究,其主要研究内容和结论如下:(1)采用相似模型
光纤激光切割作为一种新型的切割方法因其独特的精密切割方式可实现对玻璃纤维增强复合材料持续稳定快速的细小切割,可以保证切割质量和效率。但由于激光切割过程中,激光能量与玻璃纤维增强复合材料之间相互作用,导致材料的切缝宽度与材料截面粗糙度大小不一,随着精密技术的持续发展,工业产品的加工越来越趋于微型化。本课题聚焦在厚度为3mm的玻璃纤维增强复合材料进行激光切割试验,分析切缝宽度、切割锥度、截面粗糙度、热
本文针对当下能源节约及环境恶化等问题,将农业废弃物稻壳和工业报废轮胎加工成稻壳灰和橡胶颗粒,经改性后分别作为混凝土的部分胶凝材料和骨料,并掺入适量粉煤灰,研究出一种全新的绿色环保混凝土。依据正交试验法,以不同橡胶组合、聚丙烯纤维掺量、稻壳灰掺量及水灰比为因素,每个因素各取4个水平,研究了四个因素对改性稻壳灰-橡胶-纤维混凝土(Modified Rice-husk-ash Rubber Fiber
随着我国基础建设的发展,地下空间的开挖深度逐渐加大且温度也随着开采深度加大而升高。深部岩体开挖常常处于一种饱水的特殊环境中,其中爆破开挖为深部岩体主要开挖方式之一,在开挖过程中深部岩体会受到冲击荷载作用。地下岩体大部分都是处于浸水状态,而且不同深度对应水的温度也不同。因此,开展温度-水耦合作用下砂岩的动态力学性能试验研究具有重要的工程价值。本文以安徽淮南矿业集团顾北煤矿巷道砂岩为研究对象,测试了砂
干湿循环现象在自然界中极为常见,例如河水汛期的涨落、海水的潮汐潮落、库区水位的升降和雨水的降落与蒸发等等。在我国东部沿海地区和西北盐渍地区的土壤和水中存在许多的氯盐,氯盐会对混凝土结构造成损伤,降低混凝土结构的耐久性。夏季河水或者海水表面温度较高,白天水表温度能够达到30-45℃左右,晚上20℃左右,循环往复的昼夜更替类似于把混凝土放在水温变化的环境中。考虑不同水温下的干湿循环作用,研究氯离子侵蚀
随着无人驾驶汽车、增强现实和虚拟现实等技术的快速发展,同时定位与地图构建(Simultaneous localization and Mapping,SLAM)作为其中的关键技术成为了研究热点。根据使用的传感器,SLAM分类不同,相比于激光雷达,视觉传感器成本较低,而且获取的信息丰富,使得以之为基础的视觉SLAM得到了更加广泛的认可和应用。视觉SLAM主要分为特征点法和直接法。特征点法依靠特征提取