基于深度学习的钓鱼邮件检测系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:f281124698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展、网络办公方式的普及,邮件已经成为企业信息化中必不可少的一部分。邮件系统在给人们生活、工作带来便利的同时,也带来了极大的安全隐患:攻击者向邮件用户发送精心构造的钓鱼邮件,以获得用户的个人信息与隐私权限,这使得邮件用户置身于极大的网络安全风险之中。近年来,伴随着企业、学者以及政府机构对钓鱼邮件研究的不断深入,攻击者不断改进攻击手段,使用如短链接、云附件以及伪造链接等高级攻击技术以逃避逐渐升级的钓鱼邮件检测引擎的检测。在当前复杂的钓鱼邮件攻击形势下,面对内容以及形式层出不穷的钓鱼邮件,如何迅速、高效的对其进行检测已经成为了网络安全防护中的重点研究内容之一。当前的钓鱼邮件检测引擎大多通过分析邮件中嵌入的链接或带有的附件识别邮件是否具有恶意行为,从而有效地检测钓鱼邮件。但这种检测引擎在面对使用加密、反沙箱技术的恶意附件以及使用短链接技术的恶意链接时变得无能为力。近年来,机器学习技术不断发展,使用机器学习算法检测钓鱼邮件成为了钓鱼邮件检测的新型研究方向。然而邮件数量不断增加、钓鱼邮件场景不断增多,机器学习模型的上限决定了其不可能检测到所有种类的钓鱼邮件。随着对钓鱼邮件研究的不断深入,研究者们发现钓鱼邮件包含诱导性语言的特点。利用深度神经网络分析邮件正文中的语句,从文本方面对钓鱼邮件进行检测成为一种可行的研究方向。本文致力于使用深度学习技术对钓鱼邮件进行检测,研究结果主要由以下三个方面构成:(1)研究了一种基于改进莱文斯顿距离的钓鱼邮件自动标注算法。钓鱼邮件筛检必须经过人工完成,费时费力,标注数据无法满足训练需求。为此,本文提出了一种基于改进莱温斯顿距离的钓鱼邮件自动标注算法,该方法使用数量较少的经由人工筛选的钓鱼邮件,通过提取邮件发件人、邮件收件人、邮件附件等特征,利用改进的莱温斯顿距离计算邮件样本间的相似度,从邮件数据集中,自动标注一定数量的钓鱼邮件,构造钓鱼邮件样本数据集。(2)研究了一种基于改进LSTM神经网络的钓鱼邮件检测方法。针对钓鱼邮件正文中使用诱导性文本的特点,使用深度学习中的LSTM神经网络对邮件正文的语义信息进行分析。此外LSTM模型要求输入数据等长,这使得当前研究者采用数据截断或补充无效字节的方法满足LSTM神经网络的训练需求,而这种方法必将引入冗余字节或忽略部分文本导致信息损失。为此,本文使用遮掩矩阵对LSTM算法进行改进,使得不同长度的邮件正文数据都可以输入到LSTM神经网络模型中进行训练或测试,从而高效、准确地检测钓鱼邮件。(3)开发了钓鱼邮件检测系统。为准确检测钓鱼邮件,本文以沙箱方法为主、基于深度学习的钓鱼邮件检测算法为辅,设计并开发了钓鱼邮件检测系统,对系统的整体流程和各个模块进行了详细的介绍。最后,经过多次对比试验,验证了本文提出的钓鱼邮件自动标注算法、基于改进LSTM的钓鱼邮件检测算法以及设计的钓鱼邮件检测系统的准确性。实验结果显示,本文提出的两种算法均取得了不错的效果,设计的钓鱼邮件检测系统中,算法作为辅助检测模块,能够检测到一定数量的沙箱漏报的钓鱼邮件,有效对沙箱方法进行补充。同时该系统的各个指标相比于传统的钓鱼邮件检测系统均取得了一定程度的提升。
其他文献
随着计算机技术、传感器技术、无人驾驶技术及其相关技术的快速发展,无人移动平台的研究也日益迅猛,其应用领域也不断拓宽,在工厂制造、农业、太空等多种领域代替着人力承担
泡沫驱在石油开采中得到广大油田开发者的青睐,但泡沫是热力学不稳定体系,当泡沫接触到油相后,会因为液膜上的表面活性剂在油/水界面吸附而使泡沫破裂。因此,研究具有超强稳定能力的泡沫流体是泡沫驱技术的关键。相比较表面活性剂而言,纳米颗粒因其具有一定的界面吸附性能而吸附在泡沫的液膜之间,达到增强液膜的韧性和机械强度的效果并增强了泡沫的稳定性。介孔纳米颗粒和空心纳米颗粒不仅具有传统实心纳米颗粒在稳泡方面的优
近年来,“富二代”和寒门难出贵子等现象引起了社会各届的广泛关注。代际流动缓慢和阶层固化问题逐渐进入了人们的视野。社会阶层的日趋固化会损害社会公平正义,是社会经济发
随着网络技术与影视教学模式的成熟,面向汉语教学的影视教学模式越来越受到教师和学生的青睐,本文希望通过影视资源为学习者营造一个直观并且生动有趣的接近真实的语言环境,解决汉语易混淆词教学中存在的教师难以解释、学生解码不准确的问题,以辅助汉语教学。本文尝试将影视片段与易混淆词教学相结合,首先对易混淆词进行界定,制定提取易混淆词的标准,通过三种调查方式统计出易混淆词组717组,并对获取的易混淆词进行分类,
金融信息的准确提取和管理利用对企业生产经营和个人投资理财均具有重要意义。随着金融信息的爆炸式增长,传统的人工信息提取和利用技术已经无法满足企业和个人的需求。近年来,深度学习技术飞速发展,特别是在图像识别和自然语言处理领域取得了重要突破,将深度学习应用于金融信息提取和管理利用已成为发展趋势。本文利用深度学习技术,针对金融票据信息识别和新闻信息提取与市场预测开展了系统的研究与开发工作,主要工作和创新点
陈献章,明代心学宗师,是一位富有开拓创新精神的思想家、教育家,被后人称誉为“活孟子”“岭南一人”。他一生奉献给教育事业,开展了丰富多样的讲学实践,其教育思想内涵与方法为当今思想政治教育的改革与发展提供不竭动力。陈献章崇尚“以自然为宗”,提倡以诗为教,提出“学贵自得”“学贵知疑”的理论,反对读死书、唯利是图的社会风气,力求“正风俗、扶世教”,开创了岭南文化的创新之风,创立具有岭南特色的心学体系,摆脱
移动机器人路径规划作为机器人领域的热门研究,正吸引着越来越多学者的参与。在众多路径规划算法中,基于采样的RRT及其相关算法可以不需要对整个状态空间进行建模,从而大大减
现阶段,我国城市公园养护领域民营化主要通过特许经营、合同外包、购买服务等方式,将养护服务交由市场主体提供。但随着民营化的深入发展,养护民营化的效果差强人意,政府规制不到位、养护效率低下、行业垄断、恶性竞争等问题始终未得到根本解决。民营化并不意味着政府在公共事业领域中的职能完全消失,只是政府的履职方式发生了改变。在城市公园养护民营化后,政府规制显得尤为重要,行政主管部门需要对养护中的市场准入、服务质
随着经济的全球化发展,贸易、投资以及人口跨境流动的激增,全球经济产生了全球诉讼,在跨国领域,人身和商业诉讼正在不断增加,经济的全球化带来了法律领域的全球化。在国际民商事诉讼中,不可避免的产生了管辖权冲突。协议管辖制度是当事人意思自治原则与处分原则在民事诉讼程序中的具体表现,在解决管辖权冲突的适用上具有其自身的优越性。协议管辖有利于协调和减少国际管辖权冲突,有利于使当事人最大限度地获得预期利益,避免
背景肺鳞癌是肺癌较常见的病理类型,其发病机制的研究和治疗进展明显滞后。慢性炎症可导致癌变,炎症在肺癌发生和发展中的作用逐渐被人们所认识。越来越多的研究表明miRNAs可作为联系炎症与肿瘤的重要枢纽,参与肿瘤的发生发展。细胞外囊泡是肿瘤微环境中介导细胞间通讯的重要介质。外泌体作为一类重要的细胞外囊泡,特别是肿瘤来源的外泌体(tumor-derived exosomes,TEXs)已受到越来越多的关注