【摘 要】
:
互联网技术在近年来得到了飞速的发展,人们学习与生活的方式也不断发生着变化,由互联网产生的内容信息数量呈现爆炸式的增长。为适应移动端碎片化的使用场景,以网络新闻、商品评论等形式出现的短文本内容信息成为文本数据在互联网内容中的主要呈现形式。面对海量的短文本数据,对短文本进行有效的分类不仅可以显著的缩小数据规模,精确的理解文本信息的内容,也对新闻推送、流量分发等领域有着重要的影响。由于短文本数据具有词汇
论文部分内容阅读
互联网技术在近年来得到了飞速的发展,人们学习与生活的方式也不断发生着变化,由互联网产生的内容信息数量呈现爆炸式的增长。为适应移动端碎片化的使用场景,以网络新闻、商品评论等形式出现的短文本内容信息成为文本数据在互联网内容中的主要呈现形式。面对海量的短文本数据,对短文本进行有效的分类不仅可以显著的缩小数据规模,精确的理解文本信息的内容,也对新闻推送、流量分发等领域有着重要的影响。由于短文本数据具有词汇量少,信息单元不密集的特点,传统的长文本分类方法难以直接取得良好的分类效果。针对此问题,本文提出了一种融合主题模型与词向量模型的短文本分类方法,该方法使用改进后的TF-IDF模型与词向量模型构建类别关键词集,并利用类别关键词集对待扩展词汇的类别辨识度进行判断,最后通过词向量余弦相似度的计算完成对短文本内容上的扩充。使用LDA模型构建类别主题分布集,完成对短文本词汇表征在主题粒度下的扩展,由于将类别特征引入至短文本扩充中来,本文所提出的方法在一定程度上避免了传统短文本内容扩展方法中的无效扩充问题,提升了短文本扩充的有效性。在文本分类阶段,本文改进了基于深度学习网络TextCNN文本分类方法,对卷积后特征图的权重进行建模,增强了卷积神经网络对文本内容信息的采集能力,实验表明,本文所提出的分类模型能够在不同长度的短文本数据中取更好的结果。此外,为了解决半监督短文本分类中的文本表征精确度低及内容稀疏问题,本文将提出的短文本内容扩展方法以及改进后的词汇向量表征形式引入到半监督条件下,对传统半监督模型下的自训练分类方法与协同训练方法进行了优化,实验表明,本文所提出的文本内容扩展方法以及改进后的词汇向量均能对半监督分类方法产生正向的影响,获得较好的短文本分类效果。
其他文献
如今,越来越多的工业现场,尤其是对于一些远程的、分布式的、无人值守的工业现场,需要对设备的运行状态进行实时采集,而上位机系统根据数据的处理结果需要向被监控对象发送控
随着国内经济的快速发展,国民生活水平普遍提高,第三产业得到了长远发展。由此,旅游业也日渐兴旺。投资者似乎都看中了其中的前景,纷纷重金投入,这样的行为加剧了行业竞争。
阿尔巴尼亚的传统复调音乐,可分为两种主要风格:北阿尔巴尼亚黑格斯人(Ghegs)的表演风格,居住在阿尔巴尼亚南部的来布斯人(Labs)的表演风格。申报书主要指南阿尔巴尼亚托斯克斯人(Tos
最近几年,我国信息技术得到了迅猛的发展,我国正在积极进行现代化建设,各个领域和行业都在对信息技术进行充分应用,在不同程度上提升了工作质量与效率。我国事业单位人力资源
安源路矿工人运动在党的工运史上,占着非常重要的地位.自1922年5月,在毛泽东、李立三、刘少奇、蒋先云等同志领导下,组织了工人俱乐部,并领导工人英勇巧妙地向路矿当局进行
研究目的本研究从社会交换理论的视角出发,对浙江省定向生医学生基层工作意愿进行现状调查,并探索和分析定向生基层工作意愿的影响因素,为日后针对性地优化定向医学生的教育
目的:观察象皮粉外敷治疗下肢静脉性溃疡的临床疗效。方法:78例下肢静脉性溃疡患者随机分为治疗组和对照组各39例,治疗组采用象皮粉外敷治疗,对照组采用湿润烧伤膏纱条外敷治
随着科技的进步,许多工程问题对系统的控制效果提出了更高的要求,这种工程实践的迫切需求是促进非线性系统和鲁棒控制理论迅速发展的主要原因之一.通常我们研究的是系统的Lya
预应力混凝土连续刚构桥具有跨越能力强、施工方便、行车平顺、后期养护费用较低等优点,是现代桥梁工程中被广泛采用的桥型之一。越来越多的预应力混凝土连续刚构桥在高速公路和铁路运营中投入使用。实际运营过程中,预应力混凝土连续刚构桥受包括环境腐蚀、材料老化、以及偶然超载和自然灾害等多种因素的相互作用,不可避免的会出现不同程度的损伤甚至破坏,并且这类损伤破坏往往随运营时间的增加而加剧,给桥梁结构的运营带来了安
在我国铁路事业快速发展的国情下,为加强城市与城市之间的联系,城际铁路交通建设迅速展开。在城际铁路车站建设方面,为提高旅客出行效率以及有效解决车站占地面积广和城市用地紧张的矛盾,而产生了城际铁路地下站。这类全新的交通建筑类型,国内已投入使用的数量有限,相关学者也少有对其进行深入研究,但由于该种类型车站为出行旅客带来极大便捷性,截止2017年,我国已有超过10个省市建成了城际铁路地下站,所以地下站作为