基于HDFS的网络溯源系统的优化

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ljvael
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,网络的性能保障和安全检测变得越来越重要。网络溯源分析系统(RAS)是近年发展出来的一种网络内容分析和故障定位的重要工具。RAS需要抓取和保存海量的网络数据包,必须要有高效的存储系统的支持。Apache Hadoop是一个分布式框架,允许使用简单的编程模型跨计算机分布式处理大型数据集的集群,它提供一种分布式存储文件的系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。因此,HDFS适合用于保存RAS的海量数据。RAS抓取的网络数据包(PCAP)文件的大小为30到60M之间,如果直接将这些海量的数据包存储到HDFS中将导致HDFS的效率变低。因为HDFS最初是用来处理大文件的,不适合存储大量的小文件。为了解决将RAS部署在HDFS集群出现效率变低的问题,本研究对HDFS进行适当的改进,实现了一种合并小文件加分布式缓存的机制(MDCM),最后为了进一步加快文件的读取效率,添加了一种最大接近阈值算法来合并小文件。(1)MDCM机制内容主要如下:在把RAS的网络数据文件上传到HDFS过程中,添加了一个预处理机制将数据文件按照上传顺序进行合并,减少了文件的数量从而降低了集群的NameNode内存消耗;同时建立小文件索引(SMI)加快文件的读取效率。对原始的HDFS做出了适当的改进,使得NameNode保持文件分配等功能,将文件块的元数据信息分布式保存到存储对应块的DataNode中,建立合并文件和对应的DataNode之间的索引(MDI)。当从HDFS集群查询文件,不用再去NameNode中查找分布式文件块的元数据信息,只需获取SMI和MDI,然后直接去和DataNode交互。(2)最大接近阈值合并文件算法(MCTCA):为了进一步的提高文件的读取效率,在合并文件时采用一种最大接近阈值HDFS块的大小方法来合并小文件,使得每个合并后的文件大小最大接近HDFS的块的大小,在HDFS集群中只需要一个块来存储该文件,从而块的元数据信息也只有一个,当读取文件时只需和一个DataNode节点交互获取数据。实验结果证明本研究提出的优化机制确实能够有效地解决HDFS存储RAS的海量小数据包时遇到的性能问题,使得RAS系统可以高效地运行在本文优化的HDFS上。
其他文献
在世界多极化、经济全球化以及信息化的发展态势下,学习英语对于青少年的未来发展具有重要意义。初中英语课程具有工具性和人文性的双重性质。而沟通和交流是语言学习的重要目的,从语言学习的规律来看,学习者积极参与、主动交流是学好语言的关键。然而在现实的英语课堂中,消极的课堂沉默现象在农村中学阶段普遍存在,这无疑是学生英语学习的一大障碍,直接限制了学生语言能力的发展。因此,如何打破课堂沉默,有效改变课堂现状,
基坑工程是高层建筑、大型市政等工程施工的重要环节,其中深基坑开挖过程的内支撑系统围护方式已经得到广泛应用。然而,在施工过程中,工人常常将平衡土压力的基坑内支撑结构
当前我国心理健康教育亟需拓展思路,从人文科学角度入手,发展出可行的操作模式。从现象学心理学这种最激进的人文科学心理学出发,选取自然科学心理学盛行的心理健康评估环节
近年来随着网络通讯科技在不同领域的运用,远程医疗等新型医疗服务应运而生。远程医疗有助于提升医疗品质与效率、减少不必要人员移动、打破医疗行为地域限制,已成为各国医学
由于深基坑工程施工的复杂性和不确定性,使得深基坑项目施工企业在基坑施工方面面临较大的风险,而基坑工程项目的风险形成大部分与基坑开挖中的变形有关,变形跟土质、地下水
以中国知网数据库收录的CSSCI期刊中发表于2000—2019年有关话语分析研究的文献为数据,结合文献计量学理论,运用可视化软件CiteSpace5.7.R1对研究趋势、研究机构、研究者和研
研究目的:本研究主要是通过利用脑部注射立体定位仪实现左侧侧脑室注射LV-mo-miR-375-3p,并建立缺氧缺血性脑损伤(Hypoxic-ischemia brain damage,HIBD)模型,研究miR-375-3p对新生大鼠远期学习记忆能力及昼夜节律变化的作用,解析微小RNA(LV-rno-miR-375-3p)对哺乳动物缺氧缺血因素后远期行为学及昼夜节律的影响,为临床远期干预提供参考依