中文垃圾邮件过滤技术研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:sotry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的高速发展,互联网用户不断增加,电子邮件也成为了日常生活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点,很多大型企业也将其作为内部的主要交流形式。但一些人士为了自己的利益,也利用电子邮件的这个特点来传播垃圾邮件,不但占据带宽、耗费网络资源,浪费用户时间和精力,甚至还可能给用户的计算机造成威胁,泄露用户隐私。因此反垃圾邮件技术就应运而生,从反垃圾邮件技术诞生的那一刻起,国内外的研究者都在探讨切实有效的垃圾邮件的过滤技术。本文在前人研究的基础上,深入研究了目前国内外主流的反垃圾邮件技术,选取了基于内容的垃圾邮件过滤作为本文的研究重点。分析了常用的几种基于内容的过滤方法,由于贝叶斯算法的分类效果好于其他的分类算法,因此本文着重分析和探讨了贝叶斯分类算法,针对该算法的不足进行了改进:提出了一种基于权重的贝叶斯分类模型,并在传统的权重计算的基础上引入信息增益的概念,优化了权重计算公式;另外本文从实际应用出发,对于垃圾邮件的判断方法进行改进,由单纯地比较概率的大小提升到比较概率的倍数;并考虑了训练邮件样本集中合法邮件和垃圾邮件的比例,根据最近发布的《中国反垃圾邮件状况调查报告》中统计的电子邮箱用户所收到的垃圾邮件占用户邮件的百分比,在训练邮件样本集中尽量模拟真实的邮件比例。并通过实验证明了改进后的贝叶斯算法相较于传统算法的分类精度得到提高。本文还研究了邮件过滤相关的技术:中文分词技术、文本表示模型、特征项选择等,为分类模块的设计奠定基础。最后本文设计了一个完整的多层邮件过滤系统的模型,该系统结合了多种邮件过滤技术:黑白名单过滤、基于规则的过滤、贝叶斯过滤;并运用改进的算法实现了贝叶斯分类模块。
其他文献
学位
随着万维网进入人们的生活,网络已成为人们获取信息和资源的主要来源之一。然而如何在具有海量、半结构化或非结构化、动态性和多态性等特征的信息中方便、迅速、准确地检索
近年来,随着信息技术和数据仓库技术的发展,数据挖掘作为一个全新的信息处理技术迅速发展并逐步走向成熟。数据挖掘就是一种从大量的数据中提取新颖的,隐含的,有效的信息的高
近年来,随着互联网技术的不断发展,互联网上所承载的数据流量出现了爆炸式的增长。为了应对新业务、新应用对网络的要求,传统网络变得越来越复杂,越来越难以适应未来的发展。
随着人工智能技术的不断发展与完善,人脸表情识别逐渐成为人工智能和人机交互领域的一个重要研究方向,具有深远的理论意义和应用前景。实现计算机的人脸表情识别将更好地推动
无线Mesh网络(Wireless Mesh Networks, WMN)是一种多跳、具有自组织和自管理能力的宽带无线网络结构,已经广泛应用到企业、校园、医院及旅游等应用领域。随着网络信息论的引
水泥水化过程是一个极为复杂的过程,水泥水化计算机模拟作为水泥材料研究的一个方面,对于研究并预测水泥性能有重大意义和实用价值,是目前科学研究的重点。美国NIST的CEMHYD3
组合分类方法己被证明是非常普遍和有效地、能够改进学习精确度的监督方法。依据同样的原理,聚类融合的目的是融合来自多个划分的结果以得到更高质量和鲁棒性的聚类结果。目
随着移动机器人领域的研究不断深入,其应用领域也不断得到推广。大规模环境下的移动机器人自主完成作业成为当前研究的热门课题,并在行星探索、军事反恐、灾难搜救等领域拥有巨
现今,计算机系统日趋复杂,对其进行有效的管理变得越来越困难。随着人们需要的日益增加,系统中会同时存在更多的应用软件,服务器,存储器等。要想有效的管理这些要素,确保可靠