基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hubingguixuejing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
其他文献
结构测试中,不可达路径会浪费大量测试成本,极大降低测试用例的生成效率。若能提前确定路径可达性,则能将有限测试资源充分用于可达路径用例求解。传统的不可达路径判定方法有静态法、动态法和混合法。静态法与编程语言耦合,路径求解代价昂贵;动态法依赖测试数据生成,执行效率低;混合法虽然提高了求解效率,但仍受传统方法的限制。当前没有一种高效且通用的不可达路径判定方法。尤其对大规模程序而言,路径可达性求解难度极大
脉冲激光测距目前应用极为广泛,可用于环境检测、卫星观测、无人驾驶、农业林业等多个方面,并且测距过程中的抗干扰能力非常重要。较差的天气条件、复杂的环境干扰等容易引起虚警、漏检等问题。为了更好的提高测量精度,在不增加硬件电路设计难度的基础上,本文采用数字信号处理的方法提高激光脉冲回波信号的信噪比。通过采用多脉冲动态累加算法以及小波阈值去噪算法增强测距系统的抗干扰能力,优化回波信号质量,提高测量精度。本