论文部分内容阅读
随着因特网的高速发展,互联网用户不断增加,电子邮件也成为了日常生活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点,很多大型企业也将其作为内部的主要交流形式。但一些人士为了自己的利益,也利用电子邮件的这个特点来传播垃圾邮件,不但占据带宽、耗费网络资源,浪费用户时间和精力,甚至还可能给用户的计算机造成威胁,泄露用户隐私。因此反垃圾邮件技术就应运而生,从反垃圾邮件技术诞生的那一刻起,国内外的研究者都在探讨切实有效的垃圾邮件的过滤技术。本文在前人研究的基础上,深入研究了目前国内外主流的反垃圾邮件技术,选取了基于内容的垃圾邮件过滤作为本文的研究重点。分析了常用的几种基于内容的过滤方法,由于贝叶斯算法的分类效果好于其他的分类算法,因此本文着重分析和探讨了贝叶斯分类算法,针对该算法的不足进行了改进:提出了一种基于权重的贝叶斯分类模型,并在传统的权重计算的基础上引入信息增益的概念,优化了权重计算公式;另外本文从实际应用出发,对于垃圾邮件的判断方法进行改进,由单纯地比较概率的大小提升到比较概率的倍数;并考虑了训练邮件样本集中合法邮件和垃圾邮件的比例,根据最近发布的《中国反垃圾邮件状况调查报告》中统计的电子邮箱用户所收到的垃圾邮件占用户邮件的百分比,在训练邮件样本集中尽量模拟真实的邮件比例。并通过实验证明了改进后的贝叶斯算法相较于传统算法的分类精度得到提高。本文还研究了邮件过滤相关的技术:中文分词技术、文本表示模型、特征项选择等,为分类模块的设计奠定基础。最后本文设计了一个完整的多层邮件过滤系统的模型,该系统结合了多种邮件过滤技术:黑白名单过滤、基于规则的过滤、贝叶斯过滤;并运用改进的算法实现了贝叶斯分类模块。