词干单元和卷积神经网络的哈萨克短文本分类

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:june_jt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表示和卷积神经网络(CNN)的哈萨克短文本分类方法.首先,根据哈萨克语的词素和语音规则,用词-词素平行训练语料训练高效词干提取模型,并用该模型从网上下载的哈萨克短文本中提取词干.其次,用word2vec算法训练词干向量来分布式地表示文本内容,再用TFIDF算法对其进行加权.最后,用CNN进行文本分类实验,得到95.39%的分类准确率.实验结果表明,稳健词素切分及加权词干向量表示和深度学习方法相比传统机器学习方法更能提高哈萨克短文本分类任务的效率.
其他文献
在现有混合卷积神经网络架构(2D+3D)的视频分类方法中,卷积滤波器都是对局部区域进行操作,无法捕获大范围的时空依赖关系,特征通道之间缺乏相互依赖关系,传统的三维卷积核无法很好地建模时空特征.针对这些问题,提出了一种基于全局时空感受野的高效视频分类方法(CS-NL-SECO).首先将传统的三维卷积核分解成空域卷积核和时域卷积核,来更好地学习时空特征.然后在已有混合架构中的底层二维网络引入通道和空间
目的:   结直肠癌是世界范围内最常发生的恶性肿瘤之一,在我国其发病率和死亡率逐年升高,目前死亡率已跃居恶性肿瘤第2位。尽管确诊时70-80%的患者可以进行根治性手术切除,