基于自然语言处理与集成学习的异常网站检测方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:ylznaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的进步和发展与人们的生活密切相关,信息化的快速普及在给人们生活带来方便的同时,也带来了不可忽视的安全因素。保证安全绿色的网络环境,使人们远离网络不安全因素的威胁,是当代网络安全面临的重要挑战,也是人们网络生活亟待解决的一大难题。本文概括性的阐述了课题的研究背景及国内外研究现状,并针对网络安全主要存在威胁、一般存在形式、攻击方式做了系统性描述;针对样本的数据形式,利用自然语言处理技术完成了数据样本由自然存在形式到数值化的转变,为特征学习提供了良好的数据环境,为数据挖掘提供更多可能性;在负例样本极度不均衡情况下,论文以不安全类型为基准,结合采样与样本生成算法构建合理子集,并提出改进的集成学习算法,实现了网络异常行为的准确检测。本文采用统一资源定位符与网页脚本内容相结合的数据采集方式,来确定网络安全的原始样本数据,有效全面的涵盖安全因素相关的文本特征;利用自然语言处理技术中的特征工程对采集到的文本特征实现分词,向量化与特征提取,以样本作为特征分析的基本文档,用主题分析的方法抽象文档特征;针对整体样本中正负例样本比例不均衡,结合降采样与SMOTE样本生成算法,有放回的随机取样并对少数类样本进行小比例样本生成,重新组合若干组数量比例相对均衡的样本子集,避免了少数类样本在学习过程中不能被很好利用的问题;针对集成模型中最终分类模型的样本输入模式,提出了按类别比例以一定梯度降序追加对应类别样本的Re-Bagging策略,改善了整体结构中基模型生成结果的可靠性,提高了样本被正确分类的可能,降低误报;
其他文献
近年来,随着软件行业的高速发展,各式各样的软件产品开始涌现,极大地丰富了我们的生活,优秀的软件产品能促进社会的进步,相应地带动经济发展。近些年各大公司不断加强对软件质量的把控,逐渐加大对软件测试的投入,当前软件测试主要分为手工测试和自动化测试,手工测试面对频繁、重复的测试难以在很短的时间内完成,严重影响测试效率,进而影响项目进展,增加项目风险。自动化测试可以很好地弥补手工测试的不足,特别是对于重复
D-阿拉伯糖醇是一种新型功能性多元糖醇,在发酵木糖醇的过程中是不可代替的中间产物。自然界中存在的D-阿拉伯糖醇甚少,人工合成D-阿拉伯糖醇过程复杂且成本高昂。本课题研究了酵母产D-阿拉伯糖醇的关键基因的作用机制,为探究同类型的酵母菌株在代谢途径中各种多元醇生物合成之间的关系奠定基础。ARD2基因编码D-阿拉伯糖醇脱氢酶,本文旨在研究该基因对高产多元醇的酵母菌中D-阿拉伯糖醇生成量的影响:以野生型德
全球定位系统(GPS)可以为无人机器人(UR)提供位置信息,从而实现自动轨迹跟踪。然而随着科学技术的发展,室外农业领域对于无人机工作速度以及适用于复杂地形作业的要求越来越
2019年9月2日,"上海烟草集团2019新任科级(部门中层)管理人员专项培训"(以下简称"专项培训")正式启动。此次专项培训针对上海烟草集团内近两年从一般管理业务岗位新提拔的科
随着雷达高分辨成像技术的发展,高分辨成像雷达能够获取优于1m分辨率的图像,为对地侦察能力的提升提供了强有力支撑。在雷达图像高分辨率的前提下,可利用卷积神经网络高效的特征提取能力,在杂波环境下做到对雷达目标的精确检测。传统的雷达图像目标检测方法具有对位置、相干斑噪声、分辨率和姿态敏感等局限性,针对这个问题,本文采用卷积神经网络对雷达图像进行特征提取,提出了基于电磁散射特性的雷达图像目标检测方法。不仅
随着分布式能源以及直流配电网的发展,直流变压器逐渐成为研究的热点。本论文针对模块输入串联输出并联(Input Series Output Parallel,ISOP)型直流变压器的工作原理、控制策
采用IPG-YLS-5000W掺镱光纤激光器,以氩气作为保护气体,分别使用厚度为1mm,1.5mm,2mm的Invar合金(Ni42Fe50.9C0.6Mn3.5Nb3)作为中间层填充材料,对4mm和6mm厚的WC-20Co硬质合
随着互联网和移动通信技术的不断发展,海量的数字足迹为社会系统复杂结构和动力学分析提供了前所未有的广泛机会。移动网络数据集包含了用户位置数据与通话数据,为宏观尺度下人类社会性与移动性分析提供了数据基础,能够准确和完整地反映用户生活的节律模式和兴趣偏好。近年来,随着旅游产业的飞速发展,蕴含丰富“群体智慧”的移动网络数据逐渐被应用于旅游服务行业。从移动网络数据中挖掘游客的旅行路线与旅行偏好,能够为旅游景
2016年6月我国在新三板实施了分层管理的办法,将该板块市场上所有企业划分为两类,一类为创新层,另一类为基础层,旨在解决新三板市场上挂牌企业数量过大、监管困难、资源配置
奇异摄动问题由于边界层或内点层的存在难以得到理想的精确解。因此,这类问题的有效数值方法的研究引起了国内外许多学者的关注。本文在一些已有文献的基础上,系统研究了几类奇异摄动问题的自适应移动网格方法。主要内容如下:在引言中,介绍了奇异摄动问题的研究背景以及研究进展,并简单地介绍了本学位论文的主要工作。在第一章中,讨论了一类带参数的非线性奇异摄动问题的自适应移动网格方法。首先,在任意非均匀网格下,利用向