论文部分内容阅读
网络文本信息飞速增长,对海量网络文本进行自动分类并从中找出我们所需要的信息是一项非常迫切的需求,然而,传统的全监督学习分类器要想有好的分类效果,首先需要人工标注数据,训练好模型之后,才可以分类。在海量数据面前,标注成本极高,用户标注不一致,而数据采集和存储技术却一直在飞速发展,这给本文的设想提供了技术基础。真实网络文本中通常存在大量未标记的数据,仅有少量现成的已标记数据,如果我们假设大量未标记数据与少量已标记数据是服从相同分布的,二者结合之后构建一个质量与数量都满足需求的训练数据集,那么最终训练出的分类器的分类效果将会和大量标记数据训练好的全监督分类器相当。本文尝试了主流的基于半监督学习的分类器,分类数据直接使用了最真实的网络数据,除了正文提取,简单的语言筛选,广告、垃圾文本过滤,最大限度地保留了原始的网络内容。为了提高分类效果,在尝试了几种主要的特征选择和特征抽取方法的基础上,还引入了半监督的宏特征。在分类器的选择方面,本文尝试了三类基于不同原理的分类器:传统的EM,基于直推学习的TSVM和基于深度架构的DBN。在特征方面,本文在传统特征方法上做了实验,为了提高TSVM的精度,本文首次将新的基于宏特征的方法与传统特征结合在半监督分类器上做了尝试,并取得了显著的性能提升。本文用不同类型的分类器,在标准数据集和网页数据集上进行了对照实验,达到了预期的自动分类海量网页的效果,在经过一系列预处理之后,可以用降低一个数量级的标记数据,达到与全监督分类算法相近的分类精度。