【摘 要】
:
随着互联网的极速发展,人们获得信息的方式不单单通过现实生活,更多的是以网络的形式。网络信息在日常生活中带来了巨大的便捷性却离不开文本分类技术的发展,如何将大规模杂
论文部分内容阅读
随着互联网的极速发展,人们获得信息的方式不单单通过现实生活,更多的是以网络的形式。网络信息在日常生活中带来了巨大的便捷性却离不开文本分类技术的发展,如何将大规模杂乱无序的数据信息挖掘出其中的规律是迫切且有必要的。本文研究的方向为利用主题模型和深度学习模型将网络上的短文本数据进行类别分类。本文提出的基于特征扩展的短文本分类算法中,对大规模的文本数据进行分词过后,没有直接采用常规停用词表进行过滤,而是采用特定停用词表的方式进行过滤。特定停用词表是通过常规停用词表、语料库词表以及主题模型共同产生的,使得文本保留了更多的有效语义特征。针对文档集里存在特征稀疏以及文本词数各不相同的问题,模型采用了基于短文本最大概率主题下对词向量矩阵进行填充和融合层卷积神经网络,一定程度上增加了短文本的有效语义特征。在基于特征扩展的短文本分类算法的基础上进行了部分改进,将其中的卷积神经网络换成了双向长短期记忆网络,并且增加了其余两条特征通路,分别为潜在主题特征通路和加权表示通路。潜在主题特征通路由主题模型产生文本-主题特征向量。加权表示特征通路由词频-逆文档频率和词向量加权求和,并一定程度上避免了分词带来的错误。三条通路产生的短文本特征向量在全连接层的输入部分进行特征融合,以此形成深层次的短文本表示向量极大的丰富了有效语义特征,更好地表征短文本。实验结果显示:平均准确率为97.58%,平均召回率为97.16%,平均F1-Score为97.37%。实验所使用的数据集来自于网络新闻数据集,通过网络新闻数据集中以标题和摘要为短文本的形式对其进行正确的分类。为了验证所提出的短文本分类算法的性能表现,在数据集上进行了一系列的实验对比,准确率、召回率以及F1-Score为模型评价指标,最终的结果显示所提出的短文本分类算法所具有的有效性和准确性。
其他文献
精密球铰链具有三个方向的回转自由度,转动灵活、结构简单,是具备大承载能力的低副运动机构,广泛应用于机器人、并联机构、医疗器械等工业领域。为了提升装备运动精度,解决球
随着城市化进程的加快,建筑能耗呈急剧上升的趋势,建筑节能研究已成为我国节能减排工作的重点。近年来大数据相关技术和物联网技术的发展,为建筑节能提供了数据支撑。利用这
随着近年来大数据存储领域的快速发展,MongoDB已经成为了当前存储大数据时的选择之一。在MongoDB的分片式集群部署中,数据以分片的形式均匀的存储到所有的shard服务器中。在实际的应用中,MongoDB通过动态数据均衡的策略来保证所有shard服务器上分片数量的均衡,以此来保证系统运行时的性能。然而MongoDB的动态数据均衡策略并不能解决由热点数据引起的服务器超载问题,因此也就不能保证系统
由于深度网络的强大表示能力,深度哈希已被证明对于大规模图像检索是有效的,可是依然存在问题限制检索性能的提升。一方面,现有的深度哈希方法仅利用单个深度哈希表,为了实现
图像超分辨率重建技术是计算机视觉中的经典研究内容之一,旨在利用低分辨率图像恢复出高分辨率图像。图像超分辨率的目标是产生高重建精度和高视觉质量的图像输出。实践中,在
后工业文明时代中,社会经济的发展、生活水平的提高以及人们自主意识的觉醒,使得人们对行政与责任的关注程度普遍提高。人类渴望文明高效的行政,向往独立自由的社会定位,期盼
与传统物体检索相比,实例级图像检索有一系列难点,如:相同类别之间差异大(例如,光照,旋转,遮挡,裁剪等),类别与类别之间差异不大(可口可乐瓶与雪碧瓶),图像含有大量的干扰信息(如背景图像)以及有大量的未经标注的干扰图像等。最近的进展表明,卷积神经网络(CNN)可以提供了一个比传统方法更加优秀的图像特征表示方法。但是,卷积神经网络从整个图像中提取的特征包含大量的干扰信息,会导致检索性能达不到预期效果
Web Service以其平台独立、低耦合、可重用等特点成为企业开发Web应用程序的首选。为了满足当前企业数据提供者和数据操作分离这一趋势,Web Service也相应分化出数据服务和操作服务。随着企业的发展,业务实体不断增多,业务逻辑日趋复杂,数据服务也变得越来越庞杂,海量数据服务管理已经成为企业发展不可规避的问题之一。面对企业当前的海量数据服务,人工进行服务构建、服务组合和服务变更不仅费时费力
多聚焦图像融合是图像融合的一个重要分支。由于光学镜头的有限景深,只有聚焦比较好的物体可以获得清晰的图像。而融合处理后的图像不仅提高了信息的可靠性而且充分利用了互补信息,因此为人类和机器感知提供了更好的视角。本文在研究了相关算法后,提出两种在双尺度变换框架下的融合方法。主要内容如下:第一,本文简述了几种基于空间域、变换域的融合方法及规则,介绍了常用的评价指标以及多聚焦可见光成像特性。第二,提出基于总
中国社会正经历从传统走向现代的深刻转型,在全面建成小康社会的决胜阶段,政治体制改革也将继续稳步推进,保障公民有序参与到民主政治的进程中。正因如此,党的十八届三中全会