Research on Chinese Word Segmentation and Keywords Extraction

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zzdlily_6000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展,方便了人们的日常生活,人们可以随时随地查询时事新闻、网络资料、博客等等,也可以快速发表、转载和评论自己喜爱的内容信息。随着互联网技术的快速革新,网络信息数量不断倍增,在更加开放、更新速度更快的互联网平台上发表的信息呈现出几何数量级的增长。随着如此巨量的数据信息资源的涌现,人们一边获得了巨量信息的同时,也不得不用自己大量的时间与精力来查阅和提取,人力手工地从海量的网络信息中提取有用的信息,已经很难实现。因此,如何将杂乱无序的数据资源组织起来,提高用户利用信息的效率,迫切地需要对其进行检索、分类、过滤、提取,以便有效地识别和提取出对自己有价值的信息和数据。关键词的作用有:准确地阐述文本资料的主题信息,对文本资料的主要内容进行高度有效的提炼,从而可以迅速地向用户传递文本资料的主旨。它能够帮助用户消耗最少的时间筛选出自己最需要的文本,大大地提升了访问、检索有效信息的效率。除了这些以外,相对于一整篇文本来说,关键词更加得简洁明了,这就使得用户可以在进行文本相关性计算需求的同时,可以利用关键词来降低计算的复杂度,从而更加容易的完成文本分类和聚类、数据处理、数据挖掘等等自然语言处理任务。关键词能够帮助用户迅速高效地管理数据信息资源,而关键词抽取相关技术则正是处在信息时代的广大用户高效利用网络上巨量信息的重要依赖。本文提出并且进行研究的内容也正是为了满足这样的需求,提出针对于中文科技领域相关文本的关键词抽取算法。可以把自动关键词抽取方法分为3种:(1)有监督方法。是将关键词抽取看做是一个二元分类的问题,判断某些出自于一篇文档中的词、短语是否为其的关键词。此方法必须提供已经预先标注完成的关键词的训练语料:先是利用给定的训练语料训练出一个模型;然后利用得到的模型对需要抽取关键词的文档(新数据)进行自动关键词抽取。常见的有监督机器学习的分类或标注方法多借助决策树(DT)、朴素贝叶斯(NB)、最大熵模型(ME)、隐马尔可夫模型(HMM)、支持向量机(SVM)、条件随机场模型(CRF)等;(2)半监督方法。这种方法只需要少量的训练语料,不像有监督方法需要大量的训练数据,利用给定的语料训练出抽取模型,利用训练出的模型来进行未标注文本的关键词抽取,然后人工对抽取结果进行甄别,将正确的标注加到训练语料中在训练模型。因为有这其中人工的参与,所以此方法称为半监督方法。(3)无监督方法。这种方法不需要任何相关训练语料的支持,也不需要任何的人工参与,是直接利用提取系统完成文档或者文档集合的自动关键词抽取。TextRank算法是在2004年提出的,TextRank是由PageRank算法改进而来的。它的实现思想是:在一幅有向图中,当其中一个节点指向了图中的另一个节点时,相当于是由弧的起点给弧的终点投上一票,一个节点得票越多,说明这个节点在这个有向图中越重要,但同时,该节点的重要程度还跟给它投票的节点重要程度相关。这个算法不但在搜索引擎中有着至关重要的作用,在文本处理领域也有着很广泛的应用。后来的TextRank算法的主要思想:是将一篇文档划分为若干文本单元,文本单元构成节点,文本单元间的相似度构成节点间的边,形成图模型,利用PageRank算法对图模型进行迭代直至收敛,对所有的节点进行排序处理,最后输出为关键词。其简要过程是,首先把整篇文本切分成若干个组成单元(单词或者句子),以此为基础建立图模型,然后通过投票机制对文本中的重要组成部分进行评分排序。自从2006年以来,深度学习的概念异军突起,几乎横扫了机器视觉和语音识别等众多领域。通过在海量无标注样本上的无监督训练,然后在相对少量的标注样本上继续微调学习,神经网络展现出了史无前例的强大迁移学习能力。并且伴随着GPU、TPU等矩阵并行化计算硬件的发展与市场的普及,深度神经网络的训练由“纸上谈兵”逐渐成为了可能。于是,数据量和计算力同时支撑了深度学习的崛起。作为连接传统机器学习与深度学习的桥梁,词向量一直是入门深度学习的基石。词向量的训练方法有很多种,Word2vec是其中最著名的一种。Word2vec是谷歌在2013年发布的一款基于深度学习的工具,是词向量的一种浅层神经网络训练方法,Word2vec是一种能够将词表示为实数值向量的效率非常高的算法模型。而Word2vec又包含两种模型。CBOW(Continuous Bag of Words Model连续词袋模型)是一种基于窗口的语言模型。一个窗口指的是句子中的一个固定长度的片段,窗口中间的词语称为中心词,窗口中其他词语称为中心词的上下文。CBOW模型通过三层神经网络接收上下文的特征向量,预测中心词是什么。Word2vec中另外一种模型叫做Skip-gram模型。它的思想和过程与前文所提到的CBOW模型刚好是反过来的:CBOW模型是通过文本中的初始原文推测出目标字词,Skip-gram模型则是通过当前字词反推出上下文的概率。同样的道理,词向量的训练依赖于深度学习模型,借助于人工神经网络将底层的初始特征转化为抽象的高层特征。在中文分词的任务上用Attention-BILSTM-CRF模型来实现。首先,引入了条件随机场的预先知识,在模型当中,利用条件随机场来权衡句子中标签之间的转移关系,这样可以解决掉分词任务中的标记偏置问题;之后又以BILSTM-CRF为基准模型,步步深入介绍了 Attention-BILSTM-CRF中文分词系统的架构以及工作原理,融入了 Attention机制以突出某些特定的字对于一整篇文本的重要程度。最后步骤在相关训练集上对改进后的分词模型进行了系统的实验分析。根据实验数据得出的结果表明,该模型的性能得到了一定程度的提升,证明了 Attention-BILSTM-CRF分词模型的优越性。传统的TextRank关键词抽取方法是基于词语之间的共现窗口,虽然它在一定程度上能够体现了词语的关联,然而仅仅考虑窗口内的共现次数却不够的。Word2vec基于CBOW模型和Skip-gram模型,通过利用深度学习的相关训练方法,可以更加全面地表示出窗口内词语之间的关联程度,于传统的共现窗口思想相比,它有了更大的提升。所以基于Word2vec算法的模型可以更加全面准确地表示词语间的关系,并且在当训练数据集被逐步增大的时候,提升的效果会更加明显。但是因为过程中引入了深度学习的思想和训练数据的这一步骤,其计算的复杂度也会相应地提升,从这一点上看是相比于传统方法的不足的地方,但是考虑到关键词抽取出来质量的重要性,增加一部分的计算成本对于总体上也是十分必要的一步。接下来是本篇论文的核心内容之一,本部分详细讲述了本文相关方法的实验过程,首先介绍了本文实验的设计思路以及使用的数据集,然后介绍了本文使用的关键词抽取的评价方法,借鉴信息检索模型中的评价指标,包括准确率P(precision)、召回率R(recall)、综合指标F1(F-score)来评价算法的准确性。本文基于语料集设计了三组实验,评测了关键词个数对于关键词抽取性能的影响、算法之间的时间复杂度对比和滑动窗口大小的变化会对关键词抽取的影响,并且采用了表格和线形图,详尽地展示了本文各组实验的结果数据,借助于数据结果分析了不同算法的性能优劣,从多个角度体现了本文提出的改进后算法的合理性和有效性。本文所做的主要工作和贡献总结如下所述:1.基于有关神经网络的特征表示方法,对现有的各种流行的神经网络语言模型的原理进行了深刻地阐述,并从上下文的表示以及与目标词之间的关系对模型进行了整理分析。其中针对于中文关键词抽取技术中两大主流算法TextRank和Word2vec做出了细致的分析。2.关于中文分词研究技术中,本文在已有工作的基础上,提出了把BILSTM-CRF模型与Attention机制进行融合的方法。选用的双向长短期记忆条件随机场模型在自然语言处理中行业内解决序列标注问题时有很大的优势,它利用双向LSTM神经网络,既保存了文本序列中前面的上下文又考虑了未来的上下文信息;之后又结合条件随机场解决了序列标注中的标记偏置问题。同时,通过Attention机制计算BILSTM模型的输入和输出之间的相关性与重要性,并根据重要性程度获得整篇文本的整体特征,以突出某些特定的字对于整个文本的重要程度。实验数据结果表明,使用本文改进的模型以及训练方法可以有效地进行中文文本自然语言处理中的分词问题,并且在精度上面提高了。3.介绍了一种融合了 TextRank与Word2vec两种算法的关键词抽取方法。首先对关键词抽取的相关方法进行了概述,接着介绍了传统的TextRank的关键词抽取方法,并且细致地分析了其优缺点。然后介绍了近年来深度学习中比较热门的Word2vec工具,阐述了其基本原理思想。最后提出一种基于TextRank和Word2vec算法模型,改进其的关键词抽取方法,通过词向量训练得出了相似度矩阵,分析并优化了图节点中的初始权值,在文本预处理阶段归并了同义词,最终提升了关键词抽取的质量。并且由于关键词应用愈加广泛,自20世纪50年代以来至今,国际学术圈就有大量的学者对关键词抽取技术进行了研究。经历了这大半个世纪时间的后继者们的努力,关键词抽取的技术已经有了很大的进步,然而这个领域当中的研究者们也面临着一些还未解决的挑战,这其中主要包括:(1)关键词抽取工作的最基础的一步是分词。分词的精度是分词效果的最有效的体现,对词组的识别分辨能力以及分词词典的规模对最终展现的分词精度有很大的影响,这些都是今后需要相关领域的同行者需要努力的方向;(2)有监督的机器学习算法的实现,往往是需要大量的训练数据集,但是已标注完成的关键词的数据集资源非常有限。公开的并且具有权威性的中文文本数据集不足,于相关领域的英文数据集相比,目前中文的数据集具有不公开或者不够权威的特质。如果能够实现,根据自然语言处理任务中主要的任务类型进行分类并有权威的公开的数据集,它们之间用于比较,会对中文文本处理技术的发展和进步有着极大的利处。网络上面存在着巨量的并且未标注关键词的新闻、博客、小说、推文等资料。如果采用人为的方法对这些资料信息进行手动标注,则需要消耗大量人力、物力和财力的成本,这也制约了关键词抽取语料库的构建。中文文本自动关键词抽取任务仍面临着许多未解决且未知的挑战。比如说:面对文本关键词抽取任务的效率低下,如何在抽取关键词的过程中选择出高质量的、合适的、准确的关键词候选词,如何权威地衡量候选关键词与文章之间直接的相关性,以及到底应该用什么样的标准去进行抽取关键词等问题。这些点都是未来需要相关研究人员重点考虑的方面。
其他文献
为探讨工程堆积体在自然恢复过程中不同植被类型土壤质量状况以及植被恢复对有机碳组分的影响,选取相同恢复年限的工程堆积体不同植被类型(乔、灌、草)0~80cm下土壤有机碳及其组分含量、储量变化特征及其与影响因子关联,并与裸地进行对比研究,针对土石工程堆积体有无植被覆盖两种类型,分析土壤有机碳及其组分的分布规律和所受影响因子影响程度。从固碳能力角度,以期筛选出适合土石堆积体边坡治理的植被类型,以期为治理
杜仲(Eucommia ulmoides Oliv.)为国家二级保护植物,用途广泛。杜仲药用成分主要包括苯丙素类、木脂素类、黄酮类和多糖类等,可用于治疗高血压、糖尿病、类风湿性关节炎等疾病。糖基转移酶是一类负责催化小分子化合物糖基化反应的酶,通过将活性糖基从核苷糖转移到激素、次级代谢物、病原菌侵染物以及植物内外源毒性物质等一系列植物小分子化合物受体上,从而影响着植物体的各种代谢活动。近年来大量学者
西南喀斯特区坡耕地是我国主要水土流失区之一,水力侵蚀是该区土壤侵蚀的主要发生方式之一。雨滴击溅作为水力侵蚀最初阶段,可使地表土壤团聚体分散迁移,増强地表径流侵蚀作用,加剧水土流失,严重危害该区的生态环境安全。但目前对于引起喀斯特区水土流失的初始阶段的溅蚀发生规律及进而深入探讨如何破坏土壤结构影响研究相对较少。因此本研究以喀斯特典型石灰土为研究对象,采用自制雨滴发生装置模拟5种不同直径雨滴,开展不同
工业革命以来,化石燃料的大量燃烧导致大气中CO2浓度不断升高。由于CO2是植物光合作用必不可少的原料,这将对植物生长发育产生深刻影响,而植物对CO2浓度升高的响应程度与矿质营养密切相关。氮(N)是植物生长所需的首要矿质营养元素,因此,CO2浓度和N的交互作用将怎样影响植物生长发育及生理生化过程?基于此,本研究以传统药食同源植物薏苡(Coix lacryma-jobi)为研究对象,采用盆栽控制实验,
外来入侵植物的成功入侵及扩张通常会导致本地植物退出原生境。西南喀斯特地区物种多样性较为丰富。然而,近年来剧烈的外来植物入侵打破了喀斯特生境的生态平衡,严重威胁着当地的物种多样性及自然生态系统稳定性。目前关于喀斯特地区外来植物入侵已成为生态学研究的热点论题,但在系统探索机理机制方面还十分有限。丛枝菌根(Arbuscular Mycorrhiza,AM)真菌是一种重要的功能微生物,能与陆地上的许多植物
踩踏路径对草坪具有重要影响,探索踩踏路径的特征及其形成过程有助于草坪管理政策和空间规划。本文以贵州大学校园内草坪踩踏路径为研究对象,采取实地调查和人工模拟踩踏的实验方法,探索踩踏路径的特征、形成过程及其所需踩踏强度。主要结论如下:1.校园草坪踩踏路径可分为捷径、扩展路径和局部路径三种类型。捷径和扩展路径主要分布于宿舍区、食堂、教学楼和礼堂等人流量较大区域,局部路径分布于草坪中凳子和雕像等周围。捷径
本研究于2019-2020年在贵州普定进行,以2个耐密性春玉米品种先玉1171和新中玉801为材料,通过设置3.0、4.5、6.0、7.5、9.0和10.5万株/hm26个密度,系统研究不同种植密度对玉米植株茎秆特性、冠层结构、光合生理特性、产量形成及机收质量的影响,明确2个耐密性品种对增密的响应差异,探明2个品种在贵州的适宜种植密度,以期为贵州春玉米密植高产及机械化高效生产提供依据与指导。主要研
甲骨文又称殷墟文字,是古代汉字的一种形式。甲骨文主要指商代晚期王室用于占卜的甲骨文或兽骨文字,商朝灭亡、周朝兴起后,甲骨文也在一段时期内得到应用,是研究商周社会史的重要资料。甲骨文的内容涉及自然生态、气候灾害、政治制度、皇室结构、宗法庙宇制度、文化礼制、土地所有权等,也包括商朝都城的社会经济生产、交通运输、外交考察以及权贵阶层的衣食住行、健康与疾病死亡、婚姻、养老等日常生活状况。过去研究古代汉字的
我国的公共文化服务对满足群众文化生活、提升全民文化水平、开展精神文明建设起到了重要的作用。基于供给侧改革视角,当前,我国公共文化服务活动还存在很多问题,公共文化服务体系有待完善,服务水平参差不齐,部分区域公共文化设施存在浪费的情况,即使供给了文化活动,也并非群众喜闻乐见的内容,难以获得群众认可。有关部门通过对供给侧改革展开研究,在公共文化服务的供给系统、制度、主体、内容和效率等多个方面寻求科学的发
词汇是小学英语教学中的重点,也是难点。传统的教师领读学生跟读这样机械重复的词汇教学方法难以激发学生的兴趣,因此教学效果不够理想。根据《义务教育课程标准》规定,在小学英语教学中,教师应该利用丰富多样的教学资源,使教学内容、形式、过程更加直观、生动、形象,以适应学生的认知特点。本研究以福建省三明市某小学四年级学生为研究对象,将全身反应法应用于词汇教学实验,目的是观察全身反应法在小学英语词汇教学中的效果