论文部分内容阅读
随着互联网技术的快速发展,电子邮件以操作简单、价格低廉等特点成为一种新的信息交互方式,深入人们的日常生活中。然而,日益泛滥的垃圾邮件对社会造成严重的经济损失和危害。垃圾邮件不但耗费网络资源及带宽,浪费用户的时间和上网费用,而且传播有害信息,甚至被黑客用来传播病毒。可见,研究有效地反垃圾邮件技术有着深远的社会意义和巨大的经济价值。基于内容的垃圾邮件过滤技术过滤效果较好,能及时捕捉垃圾邮件特征的变化,成为反垃圾邮件技术研究的热点。目前其在研究与应用中取得一定的成果,但仍然存在一些亟需解决的问题。(1)数量巨大的训练样本和过高的向量维数使邮件过滤运算的时间和空间复杂度较高;(2)基于邮件内容特征的判断具有不确定性、不及时性等缺点;(3)基于内容的过滤技术忽略邮件的结构特征;(4)单一技术难以满足垃圾邮件过滤的需求。这些问题使得其面对不断变化的垃圾邮件发送技术和传播手段时,性能有所下降。本文针对内容过滤中存在的以上问题展开研究,以提高垃圾邮件识别的准确率、召回率为目标,主要工作总结为以下三个方面:(1)提出一种改进优势率的特征选择方法,减少邮件过滤运算的时间和空间复杂度。针对内容过滤中训练样本数量大和向量维数过高的问题,本文提出一种改进优势率的特征选择方法。首先,本文从分类器适应性、数据集依赖性、时间复杂度三个方面评估现有特征选择方法在邮件过滤中的性能。实验结果表明,优势率在综合评估中优于其它方法。其次,通过分析优势率所选特征及其计算公式,发现其忽略高频特征、难以选出对两个类别都有贡献的特征。最后,针对优势率的以上两个缺点,本文考虑词频因子、类别信息,改进优势率计算公式。实验证明,改进的优势率在保持邮件过滤准确率的同时,可进一步降低邮件过滤运算的时间和空间复杂度。(2)提出一种结合特征与非特征信息的Na ve bayes算法,提高垃圾邮件过滤的准确率。针对基于内容特征判断的不确定性和忽略邮件结构特征的问题,本文提出一种结合特征与非特征信息的朴素贝叶斯算法。该方法综合考虑邮件信头和信体对识别垃圾邮件的贡献,有效地克服了对邮件内容的依赖性,提高了邮件过滤的准确性,降低了合法邮件的误判率。在该方法中,本文首先分析邮件结构特征,从信头提取合法邮件与垃圾邮件的差异信息即非特征项,从信体提取类别区分能力强的特征项;其次,结合特征和非特征信息改进朴素贝叶斯公式并用于邮件过滤。实验证明,该方法提高了垃圾邮件识别的准确率和召回率。(3)设计并实现层次垃圾邮件过滤模块,并将其用于邮件服务器端实施过滤。针对单一技术难以满足垃圾邮件过滤需求的问题,本文设计并实现融合多种过滤技术的层次垃圾邮件过滤模块,并将其用于邮件服务器端实施过滤。在该模块中,采用了黑白名单技术、关键词过滤技术、基于Na ve bayes的邮件过滤技术,各种技术紧密合作以实施高性能的垃圾邮件过滤。其中,该模块将本文改进的关键技术融合于内容过滤中,提高了垃圾邮件过滤的准确性。