基于半监督学习模型的网络不良文本分类方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:meng8500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,网络数据井喷式增长,人们被各种各样的网络信息包围着。这些网络信息中混杂着大量的不良语言,不仅干扰信息传递与知识共享,而且阻碍网络文化健康发展,严重污染网络空间环境,危害国家精神文明建设。为给网民提供友好的网络空间环境。针对网络不良文本短小,上下文信息缺失,且缺少专用数据等问题,本文采用半监督学习模型挖掘网络文本中的不良语言信息。主要研究工作如下:(1)网络不良词汇挖掘数据集和网络不良文本分类数据集构建。鉴于目前研究缺少网络不良语的专用数据集,本文采用网络爬虫技术先后爬取微博、贴吧、YouTube上网民对热点事件评论,经过数据筛查、数据清洗、人工标注等方法,构建了网络不良语言专用数据集。(2)针对网络不良文本短小多变,上下文信息缺失,语义模糊等问题,本文首先利用混合深度学习方法,构建网络不良词典,然后提出半监督学习模型SSVAE-WD对网络不良文本进行分类。首先引入自定义网络词典训练词向量,得到文本词向量表示,再利用变分自编码器的特点,通过在均值网络中加入高斯噪声使解码器对噪声更有鲁棒性,可以准确的重构出输入信息,减少文本信息损失,进而对网络不良短文本进行有效特征表示。实验结果表明SSVAE-WD模型能够有效的对网络不良数据进行分类。(3)针对目前研究中文本分类模型过度依赖有标记数据问题,本文提出UDA-SR模型对网络不良文本进行分类。采用随机删除、同义词替换、随机交换、随机插入,这四种数据增强方法对无标记的网络不良文本进行数据扩充,利用一致性正则化思想计算无标记网络不良数据和扩充后的无标记网络不良数据的损失,并采用交叉熵损失方法计算模型预测的有标记的网络不良数据伪标记与真实标记的区别。实验测试表明,与监督学习模型BERT相比,UDA-SR模型能够在较少的有标记数据集支撑下得到较好的分类效果,通过增加无标记数据集,能够进一步提升模型的分类性能。
其他文献
学位
量子色动力学(QCD)作为描述强相互作用的规范理论,预言了在能量足够高且能量密度足够大时,强子中的夸克和胶子会解除禁闭,形成夸克胶子等离子体(QGP)这一新的物质形态。各种理论模型也预测了在低温高重子化学势区域,强子物质相与QGP相之间的转变属于一级相变,一级相变线的终结点称为QCD临界点,该点处发生的相变为二级相变。目前实验上想通过重离子加速器完成相对论重离子碰撞实验,在极短时间内产生高温高密的
在信息社会,图像是常用的隐写载体之一,非法组织也常用隐写技术来传递消息,这为国家安全与社会安全埋下了隐患。为维护国家安全,很多学者致力于隐写分析技术研究。图像隐写分析是通过分析样本图像的特性,寻求图像特征被修改的可能性,进而判别样本是否携带秘密信息。而为了提高隐写分析的准确性,借用深度学习来设计隐写分析算法已经成为当下的研究热点之一。传统隐写分析方法是通过人工设计图像特征的提取方法,最终通过训练特
几千年来,人类文明在源源不断地进步,发展到如今,社会经济也在日益增进,尤其是科学技术日新月异的发展,使得人类进入了一个全新的信息时代。在此背景下,人类生活生产已经越来越离不科学技术和信息技术,而这些高新技术,也广泛运用于各个领域之中。农业是一个国家能够强盛的基础,因此,需要大力发展。现阶段我国农业信息的传播途径还较为传统单一,在基础设施方面也比较缺乏,以至于农业信息不能得到及时有效地传播,从而造成
随着经济社会的快速持续发展以及人们经济收入、休憩时间的增加,居民对休闲游憩的需求也越来越大,城市周边旅游逐渐成为了居民休闲游憩的最佳场所。近年来第三产业及旅游业的快速发展更是为城市周边旅游业的蓬勃发展创造了良好的发展环境,大型城市的环城游憩带得到了进一步的发展。武汉是我国中部地区的特大中心城市,是我国重要的工业基地、科教基地和综合交通枢纽,拥有1300多万的常住人口。武汉两江交汇、三镇鼎立,拥有悠
学位
学位
学位
学位