基于多类型池化卷积神经网络的文本分类

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:qq240927781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:为了解决传统的基于机器学习方法的文本分类耗时耗力、不具备通用性、效果不好的问题及提高短文本分类的效果,文章提出了一种基于多类型池化的卷积神经网络分类方法。文章首先使用CNN(卷积神经网络)提取短文本的特征信息,然后利用多种类型的池化操作对提取的特征信息进行筛选,得到最终的分类依据。通过实验表明,文章提出的方法在短文本分类上要优于其他CNN分类模型和一些传统的机器学习方法。
  关键词:自然语言处理;文本分类;卷积神经网络;特征提取;池化操作
  0 引言
  文本分类问题是自然语言处理领域中一个非常经典的问题,也是实际应用中管理文本信息的一种重要方法,并在信息过滤、信息组织管理、文本信息异常检测、语义辨析和情感分析等领域得到广泛的应用和发展。本文提出一种基于多类型池化的卷积神经网络模型对短文本进行分类,实验结果表明,基于多类型池化的神经网络结构在短文本分类上表现效果良好。
  1 卷积神经网络
  卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它是一种深度学习的经典方法。一般的,CNN的基本结构包括3种类型的网络层:卷积层、激活函数层、池化层。卷积层是CNN中必不可少的一种网络层,是构成卷积神经网络的基本框架。在视觉中,卷积层的输入一般是一个二维的张量I,相应的,在张量I上进行卷积操作就需要一个二维的卷积核K,设mn分别为卷积核的长和宽,且卷积核一般小于输入张量大小,每個卷积核的参数在训练过程中都是通过BP算法[1]优化得到的。卷积运算是一种特殊的矩阵乘法运算,通过公式(1)或公式(2)的卷积运算得到包含数据信息的特征图S
  (1)
  (2)
  由于mn的有效取值范围比较小,故一般采用公式(2)的实现方式。
  激活函数层主要用来引入非线性因素,常用的激活函数有ReLU函数[2]、Tanh函数等。激活函数中线性整流单元ReLU是最常用的,其数学公式见公式(3)。
  (3)
  池化是指使用一定区域的统计特征来代替当前区域的操作。池化操作方法一般有最大池化和平均池化,如图1所示。
  2 基于多类型池化的方法
  2.1 模型训练基本流程
  短文本分类模型在训练过程中一共经历4个阶段,整体模型训练流程如图2所示。
  首先设置训练迭代次数Num和训练目标e;每次迭代开始,选取一小部分训练数据通过词向量矩阵映射成连续稠密的连续词向量数组;再将数据传入卷积神经网络层,进行特征提取、组合和特征筛选,得到模型的预测结果;再进行反向传播算法,更新相应的神经网络参数,训练次数加1,判断训练次数是否达到总训练次数Num或目标是否达到e。如果上述两个条件都没有达到就继续进行模型训练,否则模型训练结束。
  2.2 词向量
  进行文本分类时,得到的数据是由多个单词所组成的多个语句。显然这样的数据不能直接拿来使用,必须要对它们进行处理。传统的做法是使用one-hot编码[3]来对每个句子进行编码,假设词典的大小为vocab_size,文本中出现的每个词都在词典中,其中第i个词用向量x=[0,0, … ,0,1,0, … ,0]表示,向量x中第i位为1,其余位全为0,用one-hot编码表示文本很简单。
  如公式(4)所示,word为文本单词,v为词向量化后所对应的词向量,d为向量v的维数:
  (4)
  2.3 多尺寸卷积
  设卷积前的输入为xii=1,2,…,n),卷积核权重为wjj=1,2,…,k),卷积输出为yj(l=1,2,…,m),L为对应的损失函数,卷积可以分为前向传播和后向传播两个过程,如公式(5)和(6)所示。
  (5)
  (6)
  本文引入多尺寸的卷积核,在进行短文本的卷积时,可以捕获更多的文本信息。
  2.4 多类型池化
  卷积层提取到对应的特征信息后,需要对这些特征信息进一步筛选。本文使用多种类型的池化操作对特征信息筛选。
  设池化前的输入是xii=1,2,…,n),池化核权重是wjj=1,2,…,k),池化输出是yll=1,2,…,m),由公式(7)计算池化输出。
  yj=max(wj×xi)(7)
  池化层的作用是固定句子长度和特征筛选,多类型池化操作如图3所示。   3 实验结果
  本文使用上述方法进行了TREC数据分类,基本学习率lr=0.025,衰减系数=0.95。本文使用stop-early的优化技巧,防止模型训练的过拟合。本研究设置了一组对比实验,只使用最大池化方式训练的模型Only-maxPooling,只使用平均池化方式训练的模型Only-argPooling和多类型池化方式Multi-typePool(见图3)。
  TREC数据集涉及6类不同的问题类型,训练数据集包含 5 452條带标签问题,同时包含500条测试问题数据。在该数据集上,各个模型表现效果如表1所示。
  从实验结果可以看出,本文所提出的模型在TREC数据集上的表现效果要优于其他的网络模型。
  4 结语
  本文所提出的基于多类型池化的卷积神经网络结构在短文本分类上相对于其他CNN系网络结构和传统机器学习方法来说优势明显。下一步可以对数据集和词向量进行操作。
  [参考文献]
  [1]JAAFAR H, RAMLI N H, NASIR A S A. An improvement to the k-nearest neighbor classifier for ECG database[J].IOP Conference Series Materials Science and Engineering,2018(1):12046.
  [2]LI X,GUO Y. Active learning with Multi-Label SVM classi?cation[C]//Beijing:Proceedings of Twenty-Third International Joint Conference on Artificial Intelligence,2013.
  [3]ASADI R,REGAN A. A spatial-temporal decomposition based deep neural network for time series forecasting[EB/OL].(2014-11-28)[2018-10-20].https://arxiv.org/pdf/1902.00636.
  (编辑 王永超)
  Text classification based on multi-type pooling convolution neural network
  Zhang Juling, Yang Xiaomei
  (School of Information Management, Xinjiang University of Finance and Economics, Urumqi 830000, China)
  Abstract:To solve the problems of traditional text classification based on machine learning method, such as time consuming, labor consuming, lack of generality and poor effect, and to improve the effect of short text classification, a CNN(Convolution Neural Network)classification method based on multi-type pooling was proposed. Firstly, CNN is used to extract the feature information of the short text, and then various types of pooling operations are used to screen the extracted feature information to obtain the final classification basis. Experiments show that the short text classification in this paper is superior to other CNN classification models and some traditional machine learning methods.
  Key words:natural language processing; text classification; convolutional neural network; feature extraction; pooling operation
  基金项目:新疆自然科学基金项目;项目编号:2019D01A27。新疆财经大学校级一般项目;项目编号:2019XYB005。
  作者简介:张菊玲(1977— ),女,四川简阳人,副教授,博士;研究方向:大数据,逻辑综合,信息安全风险评估。
其他文献
摘 要:随着5G网络不断发展,通信行业也逐渐在未来有了更加广阔的空间。文章将对5G通信的时代下大数据的更广阔应用展开分析讨论,主要目的就是避免在未来的运行过程中出现一些数据上的异常现象以及促进通信网络更加稳定。  关键词:大数据技术;5G通信网络;网络稳定性;人工智能算法  1 大数据技术在5G通信网络中应用的可行性  1.1 保证通信质量的必然措施  对于5G通信网络而言,实际运行过程中天线的数
皮锡瑞不仅主张孔子作六经,还认为"经之名"出自孔子.然而,他在《经学历史》中提出的五项证据都是不能成立的.在此之前,龚自珍《六经正名》已提出了两项皮锡瑞没有面对的反证.要证成"经之名"源于孔子,比证成孔子与六经的关系更加困难.皮锡瑞为了证明"孔教"仍然有用,故此格外坚持"孔子之教",遂把"经"之名也要追溯至孔子头上.这是多了举证责任,却又无法圆满地佐证其说.相比之下,龚自珍"天下有六经久矣"之说,比皮氏之说更高明,也更经得起推敲.
摘 要:伴随着我国经济社会的不断进步,电子信息工程行业也迎来了不可多得的发展机会,取得了突飞猛进的发展。对于现阶段电子信息技术在我国的应用而言,无论是对于个人还是社会都具有非常重要的意义,已经渗透到人们生活的方方面面。但伴随着电子信息技术工程的不断发展,问题也逐渐显现。文章主要就现阶段我国电子信息工程中设备的常见干扰因素进行了探究。  关键词:电子通信工程;设备;抗干扰  0 引言  随着时代的不
从13世纪中叶开始,入宋的日僧和赴日传法的宋僧陆续将宋学传入了日本,天皇家及其周边的贵族学者对宋学的吸收则比较滞后。花园天皇(12971348)是日本宫廷中较早接受宋学的关键性人物。《花园天皇宸记》反映了花园天皇退位后的读书受到宋学的影响;《学道之御记》中花园天皇对当时日本宫廷学风的批评,则与北宋道学先导者“从‘文’向‘道’”的思想脉络具有相似的结构。花园天皇的宋学接受与他复兴儒学、重塑政道的现实需求密切相关,对于延续着平安时代学风的14世纪初的日本宫廷而言,具有不可小觑的意义。
《管子·幼官》和银雀山汉简《三十时》皆记载了一种以十二日为一时、一年为三十时的时令,这与传统的二十四节气不同,属于五行历系统,带有鲜明的齐地特色.三十时划分时节的依据是气在一年内的消息变化,其测时方法主要有以律候气、考察星象和测量日影,纪时方法是用干支纪日.在战国时期四时原则被普遍遵循的背景下,三十时呈现出由五行历向四时历转变的发展趋势.在汉初太初历颁布后,三十时因与农事节律不一致,以及与全年时长、十二个月等多方面的矛盾无法调和,最终被二十四节气所取代.
摘 要:随着科学技术手段的不断创新,我国云计算技术网络工程在各个领域的应用中已经相当成熟。云计算技术可以将信息进行整合,通过庞大的计算集群简化,提高信息的应用价值;可以满足大量信息在网络空间的存储。应用这些便利条件,保证了数据信息的安全性和可靠性。文章主要研究云计算环境下的数据安全对策。  关键词:云计算;技术网络;工程安全;信息;数据  0 引言  随着科学技术的发展,网络技术也在不断地升级,计
摘 要:车路无线通信系统是交通运输领域数字化、智能化应用的重要组成部分,但其信道带宽资源往往受到限制。在自动驾驶等应用场景中,需要利用无线通信系统传输大量带有时间信息和空间信息的车路交互应用数据。文章在对常见的车路无线通信系统的应用特性进行分析后,提出了一种针对拓扑结构较为稳定的专用短程通信网络时空数据校准机制,并说明这一机制如何降低了时空数据校准应用对车路无线通信系统信道资源的需求。  关键词:
摘 要:文章分析了中波广播发射机功率不稳的故障,判断了可能影响发射机功率不稳的多种故障,阐述了相关电路的工作原理,介绍了故障检查步骤及故障的具体处理方法。  关键词:中波广播发射机;影响功率不稳因素;调配网络;功率控制单元;故障分析处理  0 引言  湖北广播电视台广播发射台774 kHz主机DX-200发射机2006年投入使用,工作年限长,器件老化严重,故障率偏高,现就2017年年底出现的一例故
摘要:本质与形式是理解货币问题的关键,二者不可分割并统一于货币的演化逻辑。货币演化以货币起源矛盾为始,经实物货币、信用货币和后信用货币三个发展阶段。以演化博弈的思想来看,货币形式的演变是博弈的低水平均衡向高水平均衡的发展,货币的本质也蕴含其中。但货币本质问题又超越了形式演化博弈,上升至一个三维世界的综合分析框架。从而,货币的本质最终是一种人类社会的契约秩序,这种秩序是主观偏好选择与客观资源约束的结
摘 要:如今,伴随信息技术领域的空前发展,5G时代如约而至。5G无线通信数据的传输速度是之前的数据网络无法比拟的,现在已经开始广泛地应用于人们的生产生活。另一方面,因为5G技术覆盖面广、可靠、性能佳等特点,直接切实推动了基础网络中设施配置的不断升级优化。不仅如此,因为5G时代的来临,各个行业都在融合发展要求构建相应的信息化管理体制,而我国高校教育也在其中。文章以5G无线通信技术具备的特点为出发点,