基于维基百科类别的文本表示方法研究

论文部分内容阅读

随着互联网技术的发展,网上文档资源的日益增加,面对海量的信息,人们很难迅速准确的找到真正需要的资源。如何对浩如烟海的文献、资料进行自动分类、组织和管理,已经成为一个具有重要用途的课题。文本分类旨在自动对文档进行分类。但是,现在文本分类系统仍然存在很多问题。近年来,国内外许多研究人员对文本分类任务做了深入研究,包括在文本表示、特征选取、权重计算、分类器等方面的探索,本文研究工作紧紧围绕着文本表示这一任务,利用维基百科的类别作为特征来表示文本。在传统的文本表示中,人们把文本表示成一个文本特征向量的形式,文本特征用词来表示,即文本表示采用BOW (Bag of Words)模型。这种方法简单、易行,目前大多数文本分类系统都是使用这种文本特征表示方法。但是,词作为文本特征存在特征空间维数过高、表达能力有限等问题。本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用维基类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。但是,仅仅使用现有维基百科条目下的类别信息对文本的覆盖度明显不足。为了解决这个问题,本文提出了基于全局信息自动学习维基类别的方法(本质上是词聚类技术),使文本中维基百科无法覆盖到的词,通过该算法能自动学习到维基百科的类别信息。本文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在特征数量较少时(如：<700),分类的F1值提高了5.14%。基于全局信息自动学习维基类别的方法会把所有的信息聚到少量的维基类别上,因为在自动学习维基类别的过程中,将大量的词映射到了少量的维基类别中,这样做,可以有效的降低文本的空间维数,并且能够有效的保证文本的分类性能不下降。

其他学术论文