论文部分内容阅读
随着网络基础设施的完善和物联网技术的发展,网络成为日常生活中不可或缺的要素并使得事物之间的联系更加紧密。大数据时代,网络规模和数据量的爆炸性增长演化出网络大数据,这影响和改变了人们的工作和生活。同时,社会各界都非常重视网络安全问题,基于大数据的网络安全态势感知的研究成为网络安全领域的新热点。网络大数据是指基于网络环境的多元世界互动所产生的大数据。这些数据是广泛可用的、多源异构的、有高噪声的并且交互性和突发性强。其中不仅包含丰富的非结构化数据和复杂的关联知识,而且数据以动态快速生成的流式数据的形式存在有很强的时效性。在诸多网络安全态势感知技术中,主要的方法是通过分析网络中的数据记录来识别网络行为及其可能造成的影响。然而,在大数据背景下,现有的网络安全态势感知模型资源开销大、分析结果的精度低、准确率低、处理效率低、不能应用于实时和大规模的场景等缺点。为克服这些缺陷和不足,本文结合网络大数据的特征,提出了四种基于分布式数据分析技术的网络安全态势感知模型。首先,基于神经网络的网络安全态势感知模型。在模型中根据数据记录的特征进行数据的简化和清洗,从而解决数据多源异构和高噪声的问题。并以三层前馈神经网络作为模型的核心,利用神经网络的误差逆反馈策略提高模型分析的精度和准确率。其次,基于随机森林的网络安全态势感知模型。模型通过数据特征分析对数据进行降维处理,从而突出数据记录的特征属性并减少无效数据,以此降低模型的资源开销和对网络硬件设备配置的依赖。随机森林算法作为模型的核心,它使模型能够区分各种网络行为活动。第三,基于星型结构的网络安全态势感知模型。在这个模型中,数据记录关联性和独立性问题可以通过优化关联规则挖掘算法来解决。基于朴素贝叶斯算法作为模型的核心,通过局部预测结果的融合高效的分析整个网络环境的变化趋势。第四,自适应网络安全态势感知模型。模型利用数据特征动态生成网络态势异常库,有效的解决了快速动态生成的网络数据流的分析和处理问题。以动态时间规整算法作为模型的核心,结合离线学习和在线学习的特点分析处理流式网络大数据,使得模型能够有效应对数据流的广泛性、突发性和无序性等问题。本文提出的四种模型是专门为解决大数据问题而设计的解决方案,模型的结构复杂并与分布式平台相集成,这能够有效解决资源开销、分析精度和实时性等问题。它们的基本思路是通过多种不同的并行化算法分别实现模型的不同功能,首先对网络大数据进行清洗预处理,然后,对预处理的数据进行安全态势的理解分析,根据理解的结果得出安全态势的感知结果。本文提出的四种模型应用在大规模数据集上有着良好的效果。