面向用户评论的网络恶意行为检测技术研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:hymalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在线社交活动与日俱增,越来越多的人倾向于在网络上发表意见和表达情感,与之而来的在线评论数据也日益繁多。通过对这些数据的提取、分类和分析,可以帮助我们了解不同人对不同事物所表达的观点和情感。在线评论数据的分析对网络情报舆情、网络安全等方面具有重要的意义,因此对相关数据分析技术的研究和探讨变得尤为重要。虽然已有很多不同领域和学科的检测方法相继被提出,但目前的检测模型针对不同数据仍存在许多不足之处:1)恶意评论文本规模大、噪声多、更新快、针对性强,现有检测模型不能直接用于恶意评论检测;2)恶意评论存在严重的类不平衡问题,导致恶意行为检测难度增大和效率低;3)传统模型结构简单、学习能力弱、特征提取困难使得检测模型拟合效果较差。针对以上三个问题,本文主要做了如下的工作:(1)针对类不平衡和样本重叠问题,设计了一种基于样本分层欠采样和Bi-GRU网络的恶意行为检测模型(SSU-BG)。首先,对评论文本预处理,并根据数据集特点构造特征模型;然后,基于欧氏距离计算出高频样本的最高密度点和类内平均距离后将高频类划分为稠密区、稀疏区以及稀疏区边界层,再根据样本标签数在稠密区划分不同层次圆环的采样区,并根据各类样本不平衡度的均值来衡量总体采样比例,进而在稠密区和稀疏区边界层的圆环域分层随机欠采样,从数据层面解决类不平衡和重叠问题;最后,将文本向量输入训练好的Bi-GRU模型中。实验结果证明:SSU-BG模型在21组实验中检测准确率比其他模型检测准确率最多可高出9.98%,错误率最多可降低39.14%,另外两个评价指标也均有所提升,因此该模型在改善整体检测效果的同时也解决了类不平衡和样本重叠问题。(2)针对类不平衡和SMOTE算法采样比例设置不足的问题,设计了一种基于改进SMOTE和Bi-LSTM组合式网络恶意行为检测模型(AS-BL)。首先,对数据集预处理,在前一部分研究基础上继续扩展特征模型,同时由于恶意词汇大多集中在句末出现,所以将句末词进行向量化,以增强分类的准确率;然后,采用K临近算法计算出所有高频样本的平均密度,根据平均采样密度计算出采样比例,以采样比例为基础进一步计算出样本临近生成的样本并放入低频样本集中;最后,将文本向量输入训练好的Bi-LSTM模型中。实验结果表明:AS-BL模型比上一部分提出的SSU-BG模型的检测准确率提高了0.8%,错误率降低了0.52%,同样另外两个评价指标也均有所改善,同时也较好的解决了类不平衡和SMOTE算法存在的一些问题。
其他文献
霍克海默是德国著名的哲学家、社会学家,法兰克福学派批判理论的开拓者和奠基人,他的理论思想在法兰克福学派开始研究批判理论时,代表着在一时期内其学派的学术理论水平。霍克海默的工具理性批判思想主要来源于马克斯·韦伯的合理性理论、卢卡奇的物化理论以及马克思的异化理论,霍克海默将他们的批判精神创造性的结合起来,形成了自己独特的以发达资本主义工业社会为背景的批判理论。霍克海默站在历史的角度,通过对启蒙精神从产
在全球经济形势错综复杂的背景下,世界经济发展进入疲软状态,中国经济发展进入新常态,由高速发展转向高质量发展。我国经济自改革开放以来,一直处于高速发展当中,并具有波动性较大的特征。剧烈的经济波动会影响居民的幸福感,因此,保持经济平稳高速的发展对于一个国家来说有着重要的理论与实际意义。为了了解驱动中国经济波动的因素及其作用机制,为国家制定宏观经济政策提出建议,本文将罗默的内生生产率增长框架纳入了一个中
人口老龄化不仅给我国经济增长带来了巨大压力,而且在“421”家庭模式日益普遍的情况下,也大大加重了儿女赡养老人的负担。老年人养老的问题已经得到社会各方的广泛关注,习总
自2012年以来,中国经济开始显现出下行压力,传统行业在发展过程中步履维艰,尤其是制造业企业,开始面临产能过剩,产业经济结构转型等问题。制造业行业内增长面临严峻挑战,制造业企业迫切需要寻求突破和转型,寻找新的经济利润增长点。然而,传统企业在转型方面,有着行动迟缓、执行力不足、思维方式受限等天然劣势。因此,传统企业要转型,除了进行艰难的自我革新,更可以选择通过投资与并购,借助资本的力量实现转型。基于
中介轴承工作于高温、高转速和润滑困难的工作环境中,极易发生故障,中介轴承一旦出现故障会对航空发动机造成致命影响。因此,实现中介轴承故障诊断对航空发动机状态检测与故障诊断具有重要意义。针对中介轴承故障信号传递路径长,故障特征难以获取等问题,本文将信息熵和量子理论相结合,提出一种基于最优特征的随机森林中介轴承故障诊断方法。首先,根据航空发动机中介轴承的工作位置及结构特点,设计双转子中介轴承故障模拟实验
随着“厕所革命”在全国范围内的开展,媒体对其关注度日益提升。这一行动是国家在环境领域的重要部署,“厕所革命”能够反映国家形象的三大维度:区域维度、国民维度和政府维度。“厕所革命”报道全面建构了国家形象。2015年开始,中国在全国范围内开展“厕所革命”,这一行动覆盖和影响范围广、持续时间长,对中国国家形象的研究具有代表性和典型性。《人民日报》《光明日报》代表了国家对内传播的主阵地,《中国日报》代表了
在天然气生产过程中,由于局部的高压低温环境,生成天然气水合物引发设备堵塞,现场主要通过注入热力学抑制剂和动力学抑制剂来解决这类问题。本文通过动力学模拟的方法,模拟动力学抑制剂抑制天然气水合物生长的过程,探究其抑制机理,将动力学抑制剂与热力学抑制剂复配,得到最佳的浓度组合。采用蒙托卡罗方法计算了甲烷分子在空笼形水合物中的吸附,获得的最适宜吸附位置与甲烷水合物中甲烷的位置完全一致,验证甲烷水合物结构模
我国经济增长数据质量一直是国内外各界密切关注的问题,部分学者对于我国经济增长数据的怀疑损害了我国的国际形象,所以说,找到一种科学合理的数据质量评估方法具有重要的现实意义。因此,本文选用稳健主成分回归方法对我国经济数据质量进行评估,该方法不仅可使求出的回归估计不受异常值的强烈影响,而且能更好地识别异常点。本文在稳健主成分分析阶段使用了KSD+Rocke估计法得到稳健的均值向量和协方差矩阵,在稳健回归
本文为在设计院实际工作中,在充分了解国内和国外BIM技术应用现状的基础上,通过分析四种常用三维仿真软件的建模性能,研究各个软件在协同设计方面的优缺点和适用性,最终比选出适合BIM模型构建和协同设计控制的软件来进行应用。并且通过对实际项目的BIM信息模型的创建,并且对建立的BIM信息模型在施工图纸中如何碰撞检查及校对,来实现BIM技术在多专业间协同设计及应用。第1章为绪论,首先详细阐述了论文的选题背
表赔偿的用词经历了从先秦的“更”“庚”“赏”,到秦汉以降唐代之前的“负”“负偿”“负赏”“责”“备”等,到了唐时又添了“酬”“陪”“陪备”等词。而这些表赔偿之意用