论文部分内容阅读
Internet技术的迅猛发展和空前普及给人们带来了诸多方便的同时,也带来了很多问题。网络在传播有用知识和信息的同时,也正在被不法分子、反动敌对势力等信息内容的发布者所利用,传播各种敏感政治言论和不益于青少年成长的不良信息。因此,不良信息过滤受到了社会各界的关注和重视,特别是自然语言处理领域的专家学者们,而文本过滤又是信息过滤研究中的一个重要分支。
本文全面分析文本过滤技术当前的发展状况及文本过滤方法的基础上,深入讨论了文本过滤的相关理论和技术,详细分析研究了各种特征抽取方法、文本表示方法和分类算法。在此基础上,阐述了基于LsI和KNN的文本分类技术,并采用以上方法实现了一种基于LsI和KNN两类文本分类的过滤技术。
同时,本文还探讨了在内容过滤中广泛应用的串匹配技术。全面分析研究了各种常用的单模和多模匹配算法。在此基础上,深入研究基于Wu Manber的多模匹配算法并分析其匹配过程,提出一种改进的Wu Manber多模匹配算法,充分利用第一个匹配成功且在模式串中只出现一次的块字符在模式串中的位置信息,在不大于最小模式串长度的情况下,选择其和不良块字符的转移距离中的较大值进行转移。实验数据表明,在绝大多数情况下改进算法可以减少匹配次数,增加转移距离,提高算法匹配效率。
最后,将改进的Wu Manber多模匹配算法和基于LSI和KNN的两类文本分类技术相结合,设计出一种新的文本过滤方法,并实现一个基于新方法的校园网页文本过滤原型系统。在收集的语料库上对基于新方法的系统和单独使用基于LSI和KNN文本分类的过滤方法的系统进行实验,结果显示,通常情况下前者的性能优于后者。