基于Word2Vec与TextRank的关键词抽取研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：z58119366

【摘要】

：

自从第一次人工智能机器人打败围棋大师,计算机等高科技技术在每个领域都取得了非常好的成绩和突破。网络上的文本信息越来越多,结构化数据和非结构化数据由于处理难易程度的

【作者】

：

陈芬

【出处】

：

华中师范大学

【发表日期】

：

2004年期

【关键词】

：

深度学习关键词抽取 Word2Vec TextRank

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自从第一次人工智能机器人打败围棋大师,计算机等高科技技术在每个领域都取得了非常好的成绩和突破。网络上的文本信息越来越多,结构化数据和非结构化数据由于处理难易程度的大不相同,对此类文本数据的应用和研究也大不相同。对于这两类数据,关键词抽取仍然是实现智能文本分析的一个重要途径。传统关键词主要是由专家和作者本人标注,但是由于网上大量的文本,传统的标注方式越来越不能满足效率的要求,自动关键词抽取和标注技术则成为近年来的一个重要研究热点。同时,自动关键词抽取技术也在许多其他领域蓬勃发展:例如:信息分类、信息检索、自动文摘、个性化推荐等。本文主要基于计算机文献,提出一种结合Word2Vec和TextRank相结合的关键词抽取模型,用以提高自动关键词抽取的查全率和查准率。本文最初展现了关键词抽取技术的研究背景和现状;其次介绍了关于中英文的分词技术、文本表示方法以及Word2Vec和TextRank模型;然后基于计算机文献,提出结合外部文档信息(Word2Vec模型)和内部文档信息(TextRank模型)进行自动关键词抽取;随后本文通过对比传统的词频方法-TF-IDF和词图方法-TextRank以及同类对比无标题因子方法UNI-TextRank,在实验对比过程中我们可以发现,本文提出的结合Word2Vec和TextRank的算法(W-TextRank)在任何方面都有提高;最后本文给出了此次工作总结以及当前研究模型可以改进的几个方面。本文抽取模型的主要工作如下:(1)、将收集到的语料资源进行文本预处理,主要保存名词、动词、形容词等,同时将作者标注的关键词作为分词词典。(2)、利用深度学习工具Word2Vec中的Ship-gram模型将文本预处理的外部计算机文档词集训练成词向量,并且计算词向量之间的余弦距离。(3)、设置TextRank中的滑动窗口大小,结合内部文档信息(标题与上下文)确定节点之间的连接边。(4)、构建新的概率转移矩阵并进行模型融合:根据Ship-gram模型训练得到词向量计算出每个词向量之间的距离,以此距离作为TextRank模型中新的概率转移矩阵。其方法具体的创新点为:(1)、使用Word2Vec训练文本,在一定程度上增加了关键词出现的概率,加强了后续网络图中概率转移矩阵的连接边的值,同时降低了冗余度。(2)、本文在设计TextRank中的滑动窗口时,将内部文档信息(标题和摘要)连接在一起,提高了文内语义连贯程度。综上,本文提出的结合Word2Vec和TextRank的关键词抽取模型,结合了外部文档信息和内部文档信息,可以解决内部文档的语义连贯度和候选关键词冗余度高的问题。本文将此模型与其他三种方法的对比,实验结果显示:本模型在查全率和查准率上优于其他三种模型。

其他文献

一种核工业转运设备润滑系统研发

面对能源需求不断增加而供给严重短缺的问题,核能的安全开发利用能够有效地解决能源不足的困境。但核辐射对人类存在不同程度的伤害,严重情况甚至可以造成生命的衰竭,所以核能的安全开发利用迫在眉睫,保障核工业安全的设备研制也显得十分重要。润滑系统能有效地保障核工业物料转运设备稳定运行,有效延长转运设备的使用寿命,增加经济效益。研究过程采用理论分析、有限元仿真分析与试验测试分析相结合的方法,设计研制了核工业转

学位

润滑系统快速更换定量供油FLUENT仿真

益气活血法治疗慢性肺心病38例疗效观察

期刊

益气活血法慢性肺心病中医药疗法

19世纪中后期英国贵族经济地位的研究

传统的英国贵族和土地有着密切的联系,土地是财富、地位和权力的根本保障。在农业繁荣的年代,土地具有其他财富无可比拟的稳定性,而基于大地产制的优势,英国贵族往往据有大量

学位

英国贵族经济地位土地

结膜下注射治疗的应用

结膜下注射在眼科临庆治疗应用很广,它既适用于眼科疾病的疾部治疗,也用于眼科手术的局部麻醉.护士不仅要掌握熟练的注射方法,还要作好注射前后的心理护理,以达到临床应用目

期刊

结膜下注射治疗护理眼科疾病眼科手术

中国克拉通盆地中央古隆起与油气勘探

本文根据我中央古隆起的勘探现状，提出了下一步的油气勘探方向。

期刊

中国克拉通盆地中部隆起区地质构造油气勘探

基于SPGD算法的可扩展波前控制软件设计及实验研究

光束在自由空间传输过程中会受到大气湍流的影响而产生波前畸变,这对光学系统的成像质量及性能产生了影响。自适应光学技术(AO)是解决这一问题的有效途径。相比传统AO技术,无波前传感AO系统不需要进行波前传感,通过获取目标函数,进行优化算法迭代,并控制校正器件进行相位补偿即可实现波前畸变的校正,具有结构简单,成本低等优点。然而,实际应用及实验中的AO系统用来获得目标函数的光电探测器,对光场相位进行调控的

学位

自适应光学波前控制器随机并行梯度下降算法

新型愈创蓝烃薁基杂环化合物的合成研究

杂环化合物的合成是有机化学的重要组成部分,杂环化合物在功能性材料领域占有重要位置。愈创蓝烃薁是存在于自然界的天然有机物,具有独特的物理、化学和生物活性,广泛应用于医药、化工等领域。因此设计、合成新型愈创蓝烃薁基杂环化合物具有重要意义。本论文由以下四章内容组成:第一章为文献综述,介绍薁类化学及其研究现状,Paal-Knorr反应及其在杂环类化合物合成上的应用,本论文的研究目的、研究内容及意义。第二章

学位

蓝烃薁杂环Paal-Knorr反应吡咯呋喃吲哚

门诊静脉滴注左氧氟沙星注射液的观察护理

通过对385例成人静脉滴注左氧氟沙星注射液的观察护理,探讨药物的性能、用法及注意事项,门诊护士应重视了解病情,倾听病人主诉,加强巡视,注意观察局部皮肤反应、消化道和神经

期刊

静脉滴注左氧氟沙星注射液护理对策门诊

基于Word2Vec与TextRank的关键词抽取研究

其他学术论文