论文部分内容阅读
随着计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式。但是,电子邮件带来的垃圾邮件问题日益严重,给人们的生活带来了诸多不便,同时也给网络安全带来了极坏的影响。因此,解决好此类问题具有十分重要的现实意义。目前,反垃圾邮件工具逐渐倾向于引入基于内容的机器学习判别方法。然而,在训练过滤器时,会遇到未带类别标注的样本,如果采用传统的机器学习方法会造成过滤器性能下降。为此,本文研究利用这些未带类别标注样本,进行垃圾邮件过滤器训练。具体所做的工作和创新点如下:(1)研究针对邮件内容的理想特征选择方法。邮件中过高维数的文本内容会影响最后的过滤效果。因此,引入特征选择是很有必要的。为此,本文利用实验验证的方法,分别就文本分类中常见的几种特征选择方法对垃圾邮件样本进行了测试。结果表明,期望交叉熵方法和X~2统计量方法对邮件分类最为有效,互信息和信息增益方法效果相比之下显得逊色;(2)针对由于含有未带类别标记样本,导致训练样本质量低劣的情况,提出一种主动贝叶斯分类方法RANB(Naive Bayes Classifier Relying on ActiveLearning),用以标注这些训练样本类别标记,提高训练样本质量。此方法根据条件熵衡量未带类别标记样本好坏,选择出一定数量好的样本,并融入减少分类误差机制。同时,利用朴素贝叶斯方法简单易行且分类效果比较好的特点构造分类器以标注未带类别标记样本类别。实验表明,此算法是可行的,尤其在未知类别标注样本较多时是十分有效的,比其他几种经典方法在精确率上有很大提高;(3)设计构建了一个邮件过垃圾邮件过滤系统ALNBSpamFilter(ActiveLearning Naive Bayes Spam Filter)。将RANB算法应用于对训练样本的预处理,结果表明,用RANB算法进行预处理可有效增强训练样本的可信度。同时系统具有较高的稳定性,具备很好的应用前景。