TGang:两层结构的组合垃圾邮件过滤器的设计与实现

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:taitaitaihaole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件作为一种高效、经济的现代通信技术手段,已成为互联网最大的应用之一,然而,日益泛滥的垃圾邮件严重影响了个人和组织的工作效率。传统的黑名单、关键词、邮件路由等技术不能从根本上解决问题,所以基于人工智能、机器学习的方法被越来越多的应用到垃圾邮件过滤中。其中朴素贝叶斯(Naive Bayes),支持向量机(Support Vector Machine),逻吉斯回归(Logistics Regression)等基于统计学的方法已经被广泛使用,并且这些方法也都取得了相当不错的结果。还有06年开始在TREC比赛上展露的动态马尔可夫压缩算法(Dynamic Markov compression),部分匹配预测算法(Predictionby Partial Matching)等基于字节熵的算法也都表现出了相当好的过滤性能。虽然目前的主流垃圾邮件过滤器对于垃圾邮件的拦截都表现出了较好的性能,但是每一种过滤器仍然会存在一定的误判率,特别是在垃圾邮件过滤领域中正常邮件被误判为垃圾邮件的代价将远远大于垃圾邮件被误判为正常邮件,所以垃圾邮件过滤器的FP(False Positive)率,即正常邮件被误判为垃圾邮件的比率就显得特别重要。同时商业化的反垃圾邮件解决方案采用了级联式的结构来降低整个系统的误判率,虽然取得了不错的效果,但是一旦产生误判级联的方法将会产生严重的后果,最后方的过滤器将无法修改前面的过滤器做出的判断。本文针对降低垃圾邮件过滤器的FP率,提出了一种两层结构的组合垃圾邮件过滤器。这种方法相比于单分类器可以通过组合的方式降低FP率,相比于商业化邮件过滤系统则可以充分利用不同分类器结果进行综合判定。
其他文献
近年来,随着视频监控系统不断向数字化和智能化发展,智能监控技术已经引起了越来越多的国内外厂商和学者的重视并进行了一系列的研究。基于计算机视觉的智能安全监控系统不但
随着IT行业的快速发展和企业基本业务需求的不断增长,目前的软件体系结构越来越难以应对和处理日益增长的软件复杂性。然而,近年来,业界提出的面向服务体系结构(Service Orie
将地理信息系统技术引入配电网的运行与管理,对提高配电企业的现代化生产管理水平具有重大的意义。本文论述了基于ArcInfo平台的配电网GIS的设计与开发的过程及相关技术。首先概述了系统开发的背景及意义;其次研究了基于ArcInfo平台的GIS开发技术;随后对配电网GIS进行了详细、全面的系统分析;然后在系统分析的基础上进一步阐述了系统的总体设计,包括系统的体系结构、功能模块、数据库以及安全性设计,接
针对铁路安全监控系统中图像分割问题进行了研究及算法实现。算法主要功能是实现对铁轨图像中阻碍列车通行一定大小障碍物的准确分割。在分析铁轨图像的采集环境及图像特征的
IB方法是基于率失真理论的无监督数据模式分析方法,它自1999年提出至今已在众多领域取得成功的应用。IB方法具有严密的理论基础,它通过将数据数据对象压缩到一个“瓶颈”变量
随着计算机技术、网络技术和电子商务技术的广泛应用,工作流技术得到了飞速的发展。同时,由于企业业务过程重组的不断深入,对流程适应业务需求的动态变化也提出了更高的要求
CT断层图像三维重建是指通过医学诊断仪获取连续的二维切面图像,然后将这些二维图像之间的位置和灰度信息输入计算机,在计算机上进行相应的组合和处理,最后在显示器上再现人
在互联网及其普及的今天,内容的分发和共享已经成为人们获取信息越来越主要的方式。同时网络上拷贝的盗版也日益猖獗,损害了作者和内容出版商的利益,挫伤了积极性。应运而生的DR
传感器技术和移动互联网的发展使得基于位置的信息服务成为可能,基于位置的信息服务已经成为人们日常生活中不可缺少的一部分,然而它们也带来了一些潜在的威胁。匿名化则可以