【摘 要】
:
近年来,随着信息技术的进步与发展,人们获取新闻时讯的方式逐渐由报纸转向网络。由于新闻网站数据流量大,已无法依靠人力的方式撰写数万篇文章的摘要。因此,研究利用计算机生成文章摘要是非常具有理论价值和实际意义的。本文通过分析现有自动摘要算法的不足之处,运用Gensim自然语言处理框架,提出了一种中文摘要自动生成算法。目前自动摘要的方法主要分为生成式与抽取式,由于新闻资讯文章的篇幅较长,难以通过深度学习的
论文部分内容阅读
近年来,随着信息技术的进步与发展,人们获取新闻时讯的方式逐渐由报纸转向网络。由于新闻网站数据流量大,已无法依靠人力的方式撰写数万篇文章的摘要。因此,研究利用计算机生成文章摘要是非常具有理论价值和实际意义的。本文通过分析现有自动摘要算法的不足之处,运用Gensim自然语言处理框架,提出了一种中文摘要自动生成算法。目前自动摘要的方法主要分为生成式与抽取式,由于新闻资讯文章的篇幅较长,难以通过深度学习的方式将长文本用另一种简短的词序列替代,因此生成式方法不适用。抽取式方法通过提取文章关键句形成摘要,不受文章篇幅的影响,但会造成摘要流畅度低的问题。因此,生成高质量摘要技术的关键在于两个方面,一是需要准确地包含文章关键信息,二是需要保证语句间的通顺程度。本文从上述两个方面出发,首先对传统TextRank关键句提取算法进行了分析,针对该算法提取出的关键句准确度低的问题进行了改进,然后设计了一种摘要生成框架,该框架可以解决抽取式方法形成的摘要流畅度低的问题,并且可以对生成的摘要中所包含信息的关键性进行验证。本文算法分为两个阶段:(1)关键句生成阶段,对三十万篇中文文章构成的语料库进行文本预处理,训练Word2vec词向量模型将文本向量化,改进TextRank算法使其能够接受词向量的输入,从而通过计算句子间的余弦相似度来提取关键句。(2)摘要生成框架构建阶段,该阶段的目的是对第一阶段提取出来的关键句进行权值分配,起到进一步优化与验证的作用。首先是文章结构权值分配,该过程结合了抽取式摘要方法的思想,根据关键句在原文中出现的位置进行权值分配,起到提升句子间流畅度的作用。其次是句子关键程度的权值分配,该过程可以验证关键句的准确性,本文运用LDA主题模型提取文章关键词,若关键句包含文章关键词个数越多,则权值越高。将上述两个过程的计算结果相加得到总分,并按照分数高低降序排序,然后依次组合排名靠前的几句话生成文章摘要。最后运用Rouge摘要评测方法,对本文提出算法进行以下实验:(1)测试摘要生成框架中,不同权值对摘要质量的影响;(2)与其他自动摘要算法进行对比分析;(3)分析文章长度因素对算法的影响。实验结果表明,相比于其他算法,运用本文算法生成的摘要在流畅度与包含关键信息量方面均有提升。
其他文献
职务发明制度是专利立法的重要基石,也是保证国家科技创新的重要方式。职务发明制度的初衷是为了在发明人和本单位的利益之间找到最好的平衡点,充分发挥职务发明的价值。本文
夫妻共同债务制度是婚姻法的核心问题之一。对夫妻共同债务的认定、处理等法律问题,不仅仅关系到夫妻之间配偶一方的权益,更关涉到第三方债权人的利益,关系到交易的安全和社
随着大数据时代的到来,人们面对数据的体量变得越来越大,但数据的价值密度越来越小,这使得从数据中挖掘价值变得越来越困难。在机器学习中,对象通常包含大量特征,其中可能只
当今中国的电信行业竞争激烈,中国电信、中国移动和中国联通三家运营商在固话、宽带以及各类电信增值业务上相互比拼。特别是在宽带市场,中国电信上海公司为了保持竞争力、提高市场份额,从2009年底逐步开始光网宽带的建设,实施光纤到户战略,为公客和商客用户提供高带宽的接入。从2000年至今,走过黄金十年的ADSL宽带业务增长乏力,用户数量逐渐减少,已经进入业务维持期。随着光纤到户的推广,宽带用户越来越转向高
“颜色革命”和“阿拉伯之春”作为21世纪两次有代表性的国际政治运动,对革命发生国的政治、经济、文化、生活的方方面面产生了深远的影响,有的国家甚至仍在颜色革命的影响之
信息安全在数据中心、服务器、集群等系统中至关重要。在这类系统中,众核系统是主要构件模块。众核系统是上述系统的基础设施,其中,片上网络(network-on-chip,No C)连接众核
PACE(产品及周期优化法)是1986年由PRTM提出的管理模式,从以前的概念发展到大学的研究发展到大公司的应用,乃至现在不论大小公司,学校,政府机构,还是日常生活生产。本文通过对PACE的四要素(阶段审核,核心小组,结构化研发过程,自动化开发技术)理论的研究和分析,着重描述PACE在晶体生长设备研发管理中使用方法,分别从PACE的四要素出发,对每个要素进行解释,并给出实际研发过程中的具体实例,对
湖北省在抗日战争时期受损严重,然而战后的湖北并没有多少时间用于休养生息和恢复生产,接踵而至的国共内战使该省再度陷入困境。湖北省粮食产量向来不丰,再加上水灾、旱灾、
改革开放的今天,农村劳动力大量进入城市,造成远郊农村房屋大量废弃、闲置,城郊房屋私下流转交易频繁,引发诸多的法律问题、社会问题。一些地方政府根据自己的情况开展了宅基
随着机器学习、人工智能、网络技术的发展,各个领域对大数据和深度学习的研究和运用越来越多。卷积神经网络算法以其特有的局部连接、权值共享的特性,在深度学习研究中占据着极其重要的位置,并且由于卷积神经网络算法中的卷积过程能够自动快速地学习到图像的特征,因而在图像分类任务中表现出极大的优势。随着对深度学习和图像分类不断地进行深入研究,卷积神经网络算法在图像分类任务中仍存在着一些不足,如在不同任务中,相同算