中文文本过滤技术的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:qazwsx07555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的迅猛发展和空前普及给人们带来了诸多方便的同时,也带来了很多问题。网络在传播有用知识和信息的同时,也正在被不法分子、反动敌对势力等信息内容的发布者所利用,传播各种敏感政治言论和不益于青少年成长的不良信息。因此,不良信息过滤受到了社会各界的关注和重视,特别是自然语言处理领域的专家学者们,而文本过滤又是信息过滤研究中的一个重要分支。 本文全面分析文本过滤技术当前的发展状况及文本过滤方法的基础上,深入讨论了文本过滤的相关理论和技术,详细分析研究了各种特征抽取方法、文本表示方法和分类算法。在此基础上,阐述了基于LsI和KNN的文本分类技术,并采用以上方法实现了一种基于LsI和KNN两类文本分类的过滤技术。 同时,本文还探讨了在内容过滤中广泛应用的串匹配技术。全面分析研究了各种常用的单模和多模匹配算法。在此基础上,深入研究基于Wu Manber的多模匹配算法并分析其匹配过程,提出一种改进的Wu Manber多模匹配算法,充分利用第一个匹配成功且在模式串中只出现一次的块字符在模式串中的位置信息,在不大于最小模式串长度的情况下,选择其和不良块字符的转移距离中的较大值进行转移。实验数据表明,在绝大多数情况下改进算法可以减少匹配次数,增加转移距离,提高算法匹配效率。 最后,将改进的Wu Manber多模匹配算法和基于LSI和KNN的两类文本分类技术相结合,设计出一种新的文本过滤方法,并实现一个基于新方法的校园网页文本过滤原型系统。在收集的语料库上对基于新方法的系统和单独使用基于LSI和KNN文本分类的过滤方法的系统进行实验,结果显示,通常情况下前者的性能优于后者。
其他文献
随着经济的发展和城市化水平的提高,城市交通问题日益突出,对现有交通进行有效的管理和控制已成为我国交通运输中迫切需要解决的问题。城市交叉口把城市道路相互连接起来构成
植物作为构成人类生存环境的最重要的一环,与我们的日常生活密切相关。随着人们对的生态环境的日益重视,以计算机为手段对植物生长进行建模与仿真己成为人们研究的热点问题。开
随着Web技术迅猛发展,传统的Web开发技术在很多方面已经不能满足用户需求。Ajax作为一个全新的概念,在集合多个成熟技术的基础上带给用户全新的体验。Ajax引擎是Ajax的核心,目前
当前,通信发展的宽带化、无线化、个人化、分组化是一种大势。同有线接入系统一样,无线接入系统经历了由窄带到宽带、由面向话音业务到面向数据、多媒体业务的转变。随着数据业
在自然语言中,时间信息是一种重要的信息,它是一个事件的重要组成部分,研究表明,它在文本信息中所占的比重仅次于专有名词。在日常生活中,当人们阅读一篇新闻时,他们总是要把文
工作流技术是实现业务过程自动化的关键技术,逐渐成为这些年研究热点。作为过程建模和过程管理的核心技术,它可以与其它系统有效地结合,生成符合企业需求的各种业务管理系统。传
随着网络的迅猛发展,网络安全的重要性也日益凸显,对网络内容的检测成为网络安全体系中不可或缺的一部分。海量数据的处理和层出不穷的应用需求使网络内容检测技术面临着严峻的
随着计算机技术的不断发展,特别是互联网技术的广泛应用,提高软件质量的呼声越来越强烈,但同时软件项目的开发周期和开发规模却不断增长,软件开发的风险和管理的难度也在不断
随着计算机技术和Internet的飞速发展,计算机系统已经由独立的单机模式转向开放、互联的网络环境,网络安全和信息安全问题日益突出,网络上各种攻击事件不断发生,相应地,各种安全措
随着网络的迅速普及和网络应用日益深入社会生活各个层面,网络应用的安全性问题成为制约其发展的主要因素之一。在管理大量的网络系统时,安全管理的复杂性是个很具挑战性的问题