中文短文本分类方法的设计与实现

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:ICE867200WXM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网的快速发展,网络信息呈现出飞速增长的趋势,其主要表现形式为短文本。如何从中找到有价值的信息并对其进行准确分类已成为学者们关注的焦点。短文本具有字数少,维度高等特性,无法照搬长文本分类方法。针对这些问题本文对短文本分类的相关技术展开研究。首先设计了短文本特征扩展算法STFE,使短文本的有效特征增多再进行分类其准确性有一定提升。然后提出CAS-CNN网络结构,在词向量层引入注意力机制,从不同角度丰富词向量的特征,从而提升分类效果。具体研究工作有以下三点:(1)提出了短文本频繁特征词集挖掘算法SP-Apriori,解决了单机模式下Apriori算法挖掘频繁特征词集效率低的问题。该算法结合Spark的优点,降低SP-Apriori算法执行的时间并提高了挖掘频繁特征词集的效率。(2)提出了采用频繁特征词集的短文本特征扩展算法STFE,缓解了短文本特征不足的问题。首先采用SP-Apriori算法挖掘语料库的频繁特征词集,筛选有效的关联规则,接下来把部分关联特征词扩充到短文本中,使短文本的特征词数量增多,为接下来分类任务增加了特征信息。(3)设计了新的网络结构,提出引入注意力的卷积网络短文本分类模型CAS-CNN。通过引入注意力对初始词向量进行加权计算,使网络能更加关注重要特征抑制无效特征,丰富了词向量层的特征表达。与其他常用的分类模型相比较,本方法的F1值得到提升。
其他文献
<正>2014年中国固定收益和权益市场的两头巨牛开始苏醒,成为全球金融市场的焦点,这虽然与中国货币政策的定向调整有一定关联,但更深层次的原因则是投资者对新常态下改革结果
对民生问题的关注与重视,是党执政理念的重要转变,也是我国快速发展、文明进步的显著标志。解决民生问题,除了要对国内外财政投入解决民生理论的发展及其相互关系进行研究以
<正>最近,"四个全面"成为热词。先是《人民日报》推出重磅系列评论文章"论协调推进‘四个全面’",接着全国两会的代表委员热议"四个全面",再接着,各级党委政府纷纷开会,学习
目的:探究为下肢骨折手术患者行右美托咪定联合舒芬太尼麻醉对患者手术后静脉自控镇痛的影响。方法:选择笔者所在医院2016年2月-2017年3月收治的48例下肢骨折患者参与研究,按入
目的研究肝硬化合并上消化道出血患者的精准护理体会。方法抽取60例我科2016年1月~2018年1月住院的肝硬化合并上消化道出血患者,按照护理模式的不同将入选者分为两组,即干预
对话理论产生于西方哲学的语言学转向,意在通过对话达成人类互相理解、和谐共处的理想。以对话理论改善历史教学方式,着力于探究历史的基本能力——史料实证素养的提升,使学
针对某砂岩铀矿床地浸采铀钻孔过程中发生的缩径卡钻事故,分析钻孔施工中缩径和卡钻的原因,根据工程现场的地质条件和施工技术水平,结合地浸工艺钻孔施工特点,提出了改进施工
情境犯罪预防是20世纪70年代传统的司法预防和社会预防对犯罪反应失败的情形下诞生的第三条预防犯罪模式。情境犯罪预防理论的价值取向经历了理念、定位、政策、责任和对象等
孝是一种伦理道德要求,其内容既强调在物质上对父母的供养,又强调在精神上或心中对父母的感恩和恭敬。儒家孝道思想在孔子提出后,经战国曾子、孟子、荀子等儒家后学的补充,逐
近年来,随着印刷工艺的进步、印刷设备的升级换代及印刷行业数字化程度的不断提高,图书在印刷精度、色彩还原度和装帧精度等方面都较以往有了很大的改进。美术编辑在设计图书