基于内容特征分析的垃圾邮件过滤关键技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zy07021023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,电子邮件以操作简单、价格低廉等特点成为一种新的信息交互方式,深入人们的日常生活中。然而,日益泛滥的垃圾邮件对社会造成严重的经济损失和危害。垃圾邮件不但耗费网络资源及带宽,浪费用户的时间和上网费用,而且传播有害信息,甚至被黑客用来传播病毒。可见,研究有效地反垃圾邮件技术有着深远的社会意义和巨大的经济价值。基于内容的垃圾邮件过滤技术过滤效果较好,能及时捕捉垃圾邮件特征的变化,成为反垃圾邮件技术研究的热点。目前其在研究与应用中取得一定的成果,但仍然存在一些亟需解决的问题。(1)数量巨大的训练样本和过高的向量维数使邮件过滤运算的时间和空间复杂度较高;(2)基于邮件内容特征的判断具有不确定性、不及时性等缺点;(3)基于内容的过滤技术忽略邮件的结构特征;(4)单一技术难以满足垃圾邮件过滤的需求。这些问题使得其面对不断变化的垃圾邮件发送技术和传播手段时,性能有所下降。本文针对内容过滤中存在的以上问题展开研究,以提高垃圾邮件识别的准确率、召回率为目标,主要工作总结为以下三个方面:(1)提出一种改进优势率的特征选择方法,减少邮件过滤运算的时间和空间复杂度。针对内容过滤中训练样本数量大和向量维数过高的问题,本文提出一种改进优势率的特征选择方法。首先,本文从分类器适应性、数据集依赖性、时间复杂度三个方面评估现有特征选择方法在邮件过滤中的性能。实验结果表明,优势率在综合评估中优于其它方法。其次,通过分析优势率所选特征及其计算公式,发现其忽略高频特征、难以选出对两个类别都有贡献的特征。最后,针对优势率的以上两个缺点,本文考虑词频因子、类别信息,改进优势率计算公式。实验证明,改进的优势率在保持邮件过滤准确率的同时,可进一步降低邮件过滤运算的时间和空间复杂度。(2)提出一种结合特征与非特征信息的Na ve bayes算法,提高垃圾邮件过滤的准确率。针对基于内容特征判断的不确定性和忽略邮件结构特征的问题,本文提出一种结合特征与非特征信息的朴素贝叶斯算法。该方法综合考虑邮件信头和信体对识别垃圾邮件的贡献,有效地克服了对邮件内容的依赖性,提高了邮件过滤的准确性,降低了合法邮件的误判率。在该方法中,本文首先分析邮件结构特征,从信头提取合法邮件与垃圾邮件的差异信息即非特征项,从信体提取类别区分能力强的特征项;其次,结合特征和非特征信息改进朴素贝叶斯公式并用于邮件过滤。实验证明,该方法提高了垃圾邮件识别的准确率和召回率。(3)设计并实现层次垃圾邮件过滤模块,并将其用于邮件服务器端实施过滤。针对单一技术难以满足垃圾邮件过滤需求的问题,本文设计并实现融合多种过滤技术的层次垃圾邮件过滤模块,并将其用于邮件服务器端实施过滤。在该模块中,采用了黑白名单技术、关键词过滤技术、基于Na ve bayes的邮件过滤技术,各种技术紧密合作以实施高性能的垃圾邮件过滤。其中,该模块将本文改进的关键技术融合于内容过滤中,提高了垃圾邮件过滤的准确性。
其他文献
逆变式焊接电源具有体积小、重量轻、节能省材、效率高、电气性能好、易于实现智能化控制等诸多优点,成为焊接电源发展的必然趋势。本文通过对目前国内外点焊逆变式电源发展现状及所存在的问题进行分析和总结,提出了软开关点焊逆变电源主电路拓扑结构和数字化、智能化的控制方法,为点焊逆变电源向着高效率、智能化的方向发展提供了理论基础。当前实际生产应用中点焊逆变电源的主电路多采用硬开关方式,功率开关器件开关应力大,损
外观专利图片包含着丰富的视觉信息,但是由于数量巨大,检索范围很大,若只靠人工识别,工作量非常大而且效率很低。然而,图像检索是数据密集型的计算过程,而在检索过程中将消耗
随着Internet的持续发展和不断渗透,市场对通信系统带宽和速度的需求从未停下脚步。由于在光标记交换领域中使用最广泛、前景最广阔的通用多协议标记交换(GMPLS)技术不断应用
第四代移动通信技术(4G)在频谱有效性和传输速率方面具有更高的要求,在传统单跳网络中引入中继的多跳通信被认为是可实现高速率高覆盖要求的增强技术之一。与传统蜂窝网相比,
目前信息产业飞速发展,第三代移动通信技术(3G)已逐渐普及到各行各业和人民生活中,但是某些特殊行业例如煤矿、风电、核电、海油等,由于其恶劣的工作环境、偏僻的地理位置以及特
实验是现代教育系统中不可或缺的组成部分,在帮助学生巩固理论知识,提高动手实践能力方面发挥着积极而重要的作用。近年来,由于社会发展和教育体制的改革,传统实验室模式在教学规
图像的分辨率一直是衡量图像质量好坏的一个重要标准。图像的分辨率越高,反映的细节越丰富,提供的信息也越多,因此获取高分辨率图像一直是人们追求的目标。然而通过提高采集设备
卫星定位系统发展的越来越快,除美国的GPS系统外,Galileo系统是欧洲建立的导航系统。导航事业发展迅速的国际背景,以及Galileo系统迅速发展,使得人们对它的信号研究以及信号的捕