论文部分内容阅读
自从第一次人工智能机器人打败围棋大师,计算机等高科技技术在每个领域都取得了非常好的成绩和突破。网络上的文本信息越来越多,结构化数据和非结构化数据由于处理难易程度的大不相同,对此类文本数据的应用和研究也大不相同。对于这两类数据,关键词抽取仍然是实现智能文本分析的一个重要途径。传统关键词主要是由专家和作者本人标注,但是由于网上大量的文本,传统的标注方式越来越不能满足效率的要求,自动关键词抽取和标注技术则成为近年来的一个重要研究热点。同时,自动关键词抽取技术也在许多其他领域蓬勃发展:例如:信息分类、信息检索、自动文摘、个性化推荐等。本文主要基于计算机文献,提出一种结合Word2Vec和TextRank相结合的关键词抽取模型,用以提高自动关键词抽取的查全率和查准率。本文最初展现了关键词抽取技术的研究背景和现状;其次介绍了关于中英文的分词技术、文本表示方法以及Word2Vec和TextRank模型;然后基于计算机文献,提出结合外部文档信息(Word2Vec模型)和内部文档信息(TextRank模型)进行自动关键词抽取;随后本文通过对比传统的词频方法-TF-IDF和词图方法-TextRank以及同类对比无标题因子方法UNI-TextRank,在实验对比过程中我们可以发现,本文提出的结合Word2Vec和TextRank的算法(W-TextRank)在任何方面都有提高;最后本文给出了此次工作总结以及当前研究模型可以改进的几个方面。本文抽取模型的主要工作如下:(1)、将收集到的语料资源进行文本预处理,主要保存名词、动词、形容词等,同时将作者标注的关键词作为分词词典。(2)、利用深度学习工具Word2Vec中的Ship-gram模型将文本预处理的外部计算机文档词集训练成词向量,并且计算词向量之间的余弦距离。(3)、设置TextRank中的滑动窗口大小,结合内部文档信息(标题与上下文)确定节点之间的连接边。(4)、构建新的概率转移矩阵并进行模型融合:根据Ship-gram模型训练得到词向量计算出每个词向量之间的距离,以此距离作为TextRank模型中新的概率转移矩阵。其方法具体的创新点为:(1)、使用Word2Vec训练文本,在一定程度上增加了关键词出现的概率,加强了后续网络图中概率转移矩阵的连接边的值,同时降低了冗余度。(2)、本文在设计TextRank中的滑动窗口时,将内部文档信息(标题和摘要)连接在一起,提高了文内语义连贯程度。综上,本文提出的结合Word2Vec和TextRank的关键词抽取模型,结合了外部文档信息和内部文档信息,可以解决内部文档的语义连贯度和候选关键词冗余度高的问题。本文将此模型与其他三种方法的对比,实验结果显示:本模型在查全率和查准率上优于其他三种模型。