基于内容的垃圾邮件过滤方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:kf_haiyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式。但是,电子邮件带来的垃圾邮件问题日益严重,给人们的生活带来了诸多不便,同时也给网络安全带来了极坏的影响。因此,解决好此类问题具有十分重要的现实意义。目前,反垃圾邮件工具逐渐倾向于引入基于内容的机器学习判别方法。然而,在训练过滤器时,会遇到未带类别标注的样本,如果采用传统的机器学习方法会造成过滤器性能下降。为此,本文研究利用这些未带类别标注样本,进行垃圾邮件过滤器训练。具体所做的工作和创新点如下:(1)研究针对邮件内容的理想特征选择方法。邮件中过高维数的文本内容会影响最后的过滤效果。因此,引入特征选择是很有必要的。为此,本文利用实验验证的方法,分别就文本分类中常见的几种特征选择方法对垃圾邮件样本进行了测试。结果表明,期望交叉熵方法和X~2统计量方法对邮件分类最为有效,互信息和信息增益方法效果相比之下显得逊色;(2)针对由于含有未带类别标记样本,导致训练样本质量低劣的情况,提出一种主动贝叶斯分类方法RANB(Naive Bayes Classifier Relying on ActiveLearning),用以标注这些训练样本类别标记,提高训练样本质量。此方法根据条件熵衡量未带类别标记样本好坏,选择出一定数量好的样本,并融入减少分类误差机制。同时,利用朴素贝叶斯方法简单易行且分类效果比较好的特点构造分类器以标注未带类别标记样本类别。实验表明,此算法是可行的,尤其在未知类别标注样本较多时是十分有效的,比其他几种经典方法在精确率上有很大提高;(3)设计构建了一个邮件过垃圾邮件过滤系统ALNBSpamFilter(ActiveLearning Naive Bayes Spam Filter)。将RANB算法应用于对训练样本的预处理,结果表明,用RANB算法进行预处理可有效增强训练样本的可信度。同时系统具有较高的稳定性,具备很好的应用前景。
其他文献
针对生产过程控制的特点,研究了制造过程的现场数据采集技术和实时控制技术,设计了柔性装配线监控系统,开发了软硬件平台。论文主要研究内容如下: (1)研究了生产线监控的方法
动态配置是指在软件系统运行时动态地改变系统的配置项。基于构件的软件系统的配置项涉及系统的构件组成,构件间的连接关系,构件的物理分布等。如果基于构件的软件系统不能根据
本文首先简要介绍了网格变形技术的发展历史,简单阐述了变形方法的大致分类以及相关的技术,其中包括了近年来出现的一种网格变形的新方法:基于样例的网格变形,尤其是网格逆向
富媒体技术是一种融音视频,图片、动画、交互元素于一体的媒体组织方式。目前已成为各个运营商提高ARUP值的有效手段之一。传统的多媒体技术主要关注在音视频数据的处理上,然而
中医耳穴诊断在医学界的地位越来越重要,目前,世界上已有近百个国家研究和应用中医耳穴诊断,并不断取得新的进展。我们结合中国传统的医学与现代数据挖掘技术设计并开发了这套中医耳穴智能诊断仪,仪器主要模块采用了数据挖掘中聚类和BP神经网络技术的无缝结合,通过改进的自组织特征映射神经网络结合K-means聚类算法对中医耳穴诊断成熟样本进行聚类分析,然后针对各类分别创建BP神经网络模型进一步学习形成专家诊断知
云计算以崭新的面向服务的模式,将各类IT基础资源进行合理配置,整合抽象形成共享资源池,提高了IT资源利用率、降低了资源使用成本,具有灵活性强、可靠性高、扩展性好等多种优
应用现代计算机技术实现电磁仿真,合理地划分计算域和自动生成网格,形象地再现不同介质之间的电磁场分布和变化情况,为后期进行FDTD分析研究提供数据支持以及可视化服务,已经
随着P2P技术的飞速发展与应用,P2P已占有互联网业务的重要一席之地。在给用户带来欣喜的同时,层出不穷的P2P应用吞噬了大量带宽,使得网络运营商陷入困境。目前,P2P流量监控系统采
为了全面提高教学质量,2003年教育部决定实施“高等学校教学质量和教学改革工程”,精品课程建设项目是“质量工程”的重要内容之一。在2007~2010三年中,需要建设1897门国家精