论文部分内容阅读
随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。