论文部分内容阅读
21世纪是信息时代,随着计算机技术、数据存贮技术日新月异的发展,应用领域也得到了快速扩展,文本数据资源正以指数级的速度增长着.对于用户来说面对如此海量的文本信息,但知识却相对贫乏的现象,人们从海量的信息中获取有意义的、相关性强的知识变得困难,因此将文本信息按照某些主题分类是一个迫切需要解决的问题,也是文本数据存储发展的必由之路. 从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来,现今文本分类已经成为数据挖掘领域非常重要的一个分支,它已经在搜索引擎等领域有较好的应用.文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程.所以寻找优秀的特征选择方法对特征空间进行降维,当前己是一个非常有实际价值的研究课题.下面是本文所做的主要工作: 首先,对文本分类的相关技术:文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析,也介绍了分类结果的评判标准和常用的语料数据集,在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果.并且介绍了深度学习的产生发展经历及其在文本挖掘中的应用. 其次,本文主要研究了利用自动编码器(Autoencoder)训练之后进行特征提取的相关工作,通过与其他特征提取的分类结果进行比较提出了基于AE的特征提取分类算法.并在数据及上进行了验证. 最后提出了中基于多个自动编码器(Autoencoder)的文本分类方案,并与单个AE进行分类的方案进行了理论分析与想,进行了相应范围内的实验,给出了对比分析.