基于自然语言理解和领域本体的邮件过滤器的研究与设计

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户:dakeke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件又称“不请自来的商业邮件”,给我国的生产或商务活动带来了巨大的损失。虽然陆续推出几款邮件过滤软件,但在对比几种邮件过滤软件的原理后发现,目前的邮件过滤方法或多或少地存在着语义缺失的问题,当垃圾邮件发展到一定程度的时候,目前的邮件过滤算法将难以应付。本文针对现有垃圾邮件过滤器在对邮件内容进行处理中的语义缺失问题,提出了将自然语言理解的相关方法引入邮件判断中来,使邮件过滤器能够从语义的高度对所收到的邮件进行过滤和分类,以达到减轻用户人工处理邮件的工作量的目的。另外,将概念分析理论引入到自然语言理解中来,利用概念分析理论不涉及具体语言这一特点,来解决汉语语言构成复杂,口语化严重的问题,并在此基础上设计了基于概念分析的邮件内容分析方法。通过利用广告行业的领域专用术语的特点,构建了广告领域的领域本体,并作为概念分析的基础和知识库。采用的技术路线主要是:首先将对汉语语言的定义和语言的实例定义到本体库中,从而省去了数据库层,方便了系统的构建,且用可扩展标记语言(XML)来定义本体,为以后的扩展奠定了基础。用描述逻辑来支持基于概念分析的自然语言理解和推理,其次是利用描述逻辑支持分层设计的特点,设计出基于概念分析的、层次性的邮件领域本体。最后,依据上述研究基础或设计想法,设计了一款基于自然语言理解和领域本体的邮件过滤器,并提出了一种符合真实邮件过滤环境的句法分析和语义分析算法。以广告垃圾邮件作为测试用例进行测试,并给出相应的测试数据,对该算法进行了验证,取得了令人满意的结果。
其他文献
本文主要研究了固定场景情况下基于背景减除方法的运动检测在视频监控中的应用。内容涉及运动检测方法及应用、背景模型选择及建立、阴影的检测和识别以及运动估值几个方面。
本文选题来自江苏科技大学“船舶工业集团军贸基金”重点科研项目---舰船综合后勤保障系统研究。为此我们设计了一个基于J2EE的分布式企业级多层次应用架构,并将利用这一架构
模型驱动体系结构是OMG在2001年提出的一种新的软件方法学,它将系统功能规约与特定技术平台的功能实现规约相分离,以达到“一次设计,任何平台实现”的目的。 本文通过把PI
XML(eXtensible Markup Language)已逐渐成为互联网信息的主要表示和交换标准。为了有效地分析和处理XML数据,研究者们已经提出了各种XML数据处理技术,其中XML的存储、索引、查
目前基于网络攻击的信息安全存储技术发展比较成熟,如防火墙技术、IDS等,而基于内控安全的信息安全存储技术发展还远未达到市场的要求。本文通过分析目前文件信息安全存储领
随着市场竞争的加剧,越来越多的电信运营商已经意识到,在寻找业务增长点的同时,要更加关注企业内部的收入管理。为了减少企业收入的流失,开始了对电信企业收入保障的研究。收入保
在传送网的建设过程中,由于种种原因,导致现有的传送网是一个设备厂商众多、多种技术并存的复杂网络,这给传送网网管系统的运行维护和综合管理带来了很大的困难。在以前的综合网
挖掘海量数据,从中发现有用的信息与知识是当前数据挖掘研究领域面临的重大挑战。到目前为止,海量数据挖掘的主要解决策略包括数据约简和数据降维等,其中,基于统计学中的抽样方法
随着Internet的日益普及,Web应用的复杂性不断地增加,其规模也在不断地扩大,对于灵活性、可靠性和个性化都提出了更高的要求,这就给Web应用开发带来了新的挑战。 本文认为,在现
学位