论文部分内容阅读
垃圾邮件又称“不请自来的商业邮件”,给我国的生产或商务活动带来了巨大的损失。虽然陆续推出几款邮件过滤软件,但在对比几种邮件过滤软件的原理后发现,目前的邮件过滤方法或多或少地存在着语义缺失的问题,当垃圾邮件发展到一定程度的时候,目前的邮件过滤算法将难以应付。本文针对现有垃圾邮件过滤器在对邮件内容进行处理中的语义缺失问题,提出了将自然语言理解的相关方法引入邮件判断中来,使邮件过滤器能够从语义的高度对所收到的邮件进行过滤和分类,以达到减轻用户人工处理邮件的工作量的目的。另外,将概念分析理论引入到自然语言理解中来,利用概念分析理论不涉及具体语言这一特点,来解决汉语语言构成复杂,口语化严重的问题,并在此基础上设计了基于概念分析的邮件内容分析方法。通过利用广告行业的领域专用术语的特点,构建了广告领域的领域本体,并作为概念分析的基础和知识库。采用的技术路线主要是:首先将对汉语语言的定义和语言的实例定义到本体库中,从而省去了数据库层,方便了系统的构建,且用可扩展标记语言(XML)来定义本体,为以后的扩展奠定了基础。用描述逻辑来支持基于概念分析的自然语言理解和推理,其次是利用描述逻辑支持分层设计的特点,设计出基于概念分析的、层次性的邮件领域本体。最后,依据上述研究基础或设计想法,设计了一款基于自然语言理解和领域本体的邮件过滤器,并提出了一种符合真实邮件过滤环境的句法分析和语义分析算法。以广告垃圾邮件作为测试用例进行测试,并给出相应的测试数据,对该算法进行了验证,取得了令人满意的结果。