基于深度学习的文本分类研究

来源 :内蒙古民族大学 | 被引量 : 0次 | 上传用户：zhoubin_

【摘要】

：

21世纪是信息时代，随着计算机技术、数据存贮技术日新月异的发展，应用领域也得到了快速扩展，文本数据资源正以指数级的速度增长着.对于用户来说面对如此海量的文本信息，但知识却

【作者】

：

苏峰

【机构】

：

内蒙古民族大学

【出处】

：

内蒙古民族大学

【发表日期】

：

2014年期

【关键词】

：

海量文本信息分类方法深度学习特征提取自编码器网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

21世纪是信息时代，随着计算机技术、数据存贮技术日新月异的发展，应用领域也得到了快速扩展，文本数据资源正以指数级的速度增长着.对于用户来说面对如此海量的文本信息，但知识却相对贫乏的现象，人们从海量的信息中获取有意义的、相关性强的知识变得困难，因此将文本信息按照某些主题分类是一个迫切需要解决的问题，也是文本数据存储发展的必由之路.　　从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来，现今文本分类已经成为数据挖掘领域非常重要的一个分支，它已经在搜索引擎等领域有较好的应用.文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程.所以寻找优秀的特征选择方法对特征空间进行降维，当前己是一个非常有实际价值的研究课题.下面是本文所做的主要工作:　　首先，对文本分类的相关技术:文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析，也介绍了分类结果的评判标准和常用的语料数据集，在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果.并且介绍了深度学习的产生发展经历及其在文本挖掘中的应用.　　其次，本文主要研究了利用自动编码器(Autoencoder)训练之后进行特征提取的相关工作，通过与其他特征提取的分类结果进行比较提出了基于AE的特征提取分类算法.并在数据及上进行了验证.　　最后提出了中基于多个自动编码器(Autoencoder)的文本分类方案，并与单个AE进行分类的方案进行了理论分析与想，进行了相应范围内的实验，给出了对比分析.

其他文献

基于神经网络的捷联惯导系统消噪和飞行参数解算

在捷联惯导系统中，加速度计和陀螺的输出数据中不可避免的会有噪声干扰，影响到输出值的精确度，进而影响到解算值的精确度，使得导航姿态解算精度不高。神经网络算法具有很好的对陌

学位

Allan方差BP神经网络径向基函数神经网络加速度计陀螺

4-进紧支撑复小波

本文主要研究了4-进复小波的构造方法.复数小波在应用中有一些实数小波所不能替代的优势，然而复数小波的研究相对较少.尤其是多进复小波由于构造较为复杂，可供应用选取的实例不

学位

4-进复小波构造方法线性相位计算复杂度

我国保险业中若干问题的统计分析

自改革开放以来,我国的保险业一直处于高速发展状态,作为社会保障及金融体系的重要组成部分,有着不可替代的作用。但是与发达国家保险市场相比,我国的保险业还存在着许多不完善的地方,而且我国的保险业在地域发展上也存在着巨大的差距。保险数据分析是统计学的一个重要应用领域,从前期的保费核定工作开始,再经过一系列风险评估、赔付率计算,到后期的保费收入、报案量、结案量预测,统计理论贯穿始终。随着保险业规模的不断扩

学位

保险地域季节趋势协整检验报案量结案量

基于Au纳米颗粒增强的染料随机激光研究

基于金属纳米结构而获得随机激光的增强,其独特的性质及其潜在的应用价值具有重要的研究意义,在表面增强荧光、光学开关器件、表面等离子激元激光等方面实现了较多应用。本研究提供了一种快捷有效地制备纳米颗粒的方法并基于该纳米颗粒结构分析了染料掺杂聚合物薄膜涂覆的随机激光现象和规律。本论文围绕Au纳米颗粒的制备和应用展开研究,利用金属溅射沉积和高温热处理技术获得不同粒径分布和光谱特征的Au纳米颗粒;通过涂覆有

学位

基于扰动技术的隐私保护数据挖掘研究

近些年来，随着数据库技术和网络技术的发展，计算机数据存储功能不断进步，数据挖掘作为一个强有力的数据分析工具，在许多领域做出了巨大的贡献，具有广阔的应用前景。不断出现的各种

学位

数据扰动数据挖掘分区关联规则保护隐私决策树

基于深度学习的文本分类研究

其他学术论文