论文部分内容阅读
信息技术的快速发展促使网络数据呈现几何式增长,导致数据量越来愈大,对文本信息有效的检索和利用也越来越困难。面对海量的信息,尤其是面对爆炸式增长的文本信息,高效的从海量文本中捕获到有用的信息,已经成为当前亟需解决的问题。为了解决这一问题,需要从文本中提取能够反映文本主题的中心词,这些词被称为关键词。关键词很好的体现了作者的思想以及文章的主题,能够使读者快速的了解一篇文章的主要内容,因此拥有一种熟练的自动关键词提取方法有着非常重要的研究意义。关键词作为文本核心内容地体现,不仅要反映词语地的重要性,还要能够反映文本与主题之间的相关性。而现有的针对关键词主题相关性的研究较少,而且多集中于对词语的语言概率模型或基于词典的研究,无法挖掘出词语的隐式语义特征。此外,在现实世界中大多数文本都没有提供标注关键词。如果采取人工标注的方法,不仅效率低下、费时费力,而且人的主观意识对标注结果影响比较大,所以手动分配关键词是一项非常耗时且繁琐的任务。综合以上因素,本文主要针对关键词的主题相关性以及标注语料较少的问题展开了研究,研究的主要内容如下:(1)本文提出了一种新的计算词语与文本主题之间相关性的方法。算法首先对文本进行预处理得到候选关键词序列,并结合领域知识对文本语料数据进行训练得到词向量列表,然后根据词向量列表得到文本的词向量序列,对单文本中的词向量进行聚类得到文本的聚类中心,最后计算各个候选关键词与聚类中心的相似度,作为词语与文本主题之间的语义相关性。(2)本文提出了一种融合语义特征的关键词提取方法,算法研究的重点在于对文本中候选关键词的特征提取。本文在前人研究的基础上分别从词频、长度、位置、语言信息等四个方面提取了包括描述词语与文本主题的相似度在内16个特征,以此作为分类模型的样本数据训练关键词分类模型。实验结果表明,融合语义特征的关键词提取方法较传统的基于术语频率逆文档频率(Term Frequency Inverse Document Frequency,TFIDF)方法,准确率提升了16.2%,F-Score提升了20.5%。提取的关键词不仅能够反映词语的重要程度,而且还反映词语的主题相关性。(3)本文将融合语义特征的关键词提取方法与半监督学习方法相结合,提出了一种改进的基于半监督的关键词提取方法。算法改进了初始训练样本选择的方法,通过交叉验证的方法提取较高置信度的训练样本,从而达到提升模型准确率的目的。实验表明,在实验数据一定的情况下,基于有监督的算法仅能从有标注样本中学习规律,而基于半监督学习的算法不仅能学习到有标注样本的规律还可以进一步挖掘出无标注样本的内在规律。