基于维基百科类别的文本表示方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xufei777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网上文档资源的日益增加,面对海量的信息,人们很难迅速准确的找到真正需要的资源。如何对浩如烟海的文献、资料进行自动分类、组织和管理,已经成为一个具有重要用途的课题。文本分类旨在自动对文档进行分类。但是,现在文本分类系统仍然存在很多问题。近年来,国内外许多研究人员对文本分类任务做了深入研究,包括在文本表示、特征选取、权重计算、分类器等方面的探索,本文研究工作紧紧围绕着文本表示这一任务,利用维基百科的类别作为特征来表示文本。在传统的文本表示中,人们把文本表示成一个文本特征向量的形式,文本特征用词来表示,即文本表示采用BOW (Bag of Words)模型。这种方法简单、易行,目前大多数文本分类系统都是使用这种文本特征表示方法。但是,词作为文本特征存在特征空间维数过高、表达能力有限等问题。本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用维基类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。但是,仅仅使用现有维基百科条目下的类别信息对文本的覆盖度明显不足。为了解决这个问题,本文提出了基于全局信息自动学习维基类别的方法(本质上是词聚类技术),使文本中维基百科无法覆盖到的词,通过该算法能自动学习到维基百科的类别信息。本文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在特征数量较少时(如:<700),分类的F1值提高了5.14%。基于全局信息自动学习维基类别的方法会把所有的信息聚到少量的维基类别上,因为在自动学习维基类别的过程中,将大量的词映射到了少量的维基类别中,这样做,可以有效的降低文本的空间维数,并且能够有效的保证文本的分类性能不下降。
其他文献
自适应软件在周围环境发生改变的时候,能够利用其自适应逻辑来调整自身的行为,确保既定的任务可以完成。这类软件的开发存在一定的难度,主要表现在以下几个方面:●自适应逻辑
检测技术的快速发展,出现了许多新的问题有待研究,有很多是传统的方法难以解决的问题。由于检测技术在现代社会的重要性,人们在不断探索研究新的检测技术。 可拓学是一门新学