论文部分内容阅读
随着网络信息数量在互联网上日益庞大,对于网络信息质量的要求也越来越高,越来越多探索网络信息过滤的新技术正在逐步的发展中,由于网络信息动态性极强,而这些动态性主要表现在网页内容的增减和链接地址的动态变化上,因此网络信息内容过滤主要针对网页上的动态信息流,在处理大量的冗余信息数据时,还要满足用户对动态信息的需求量,过滤用户不感兴趣的信息,网络信息过滤系统就是从动态的数据流中收集或去掉某些文本信息。开发出一种网络信息过滤系统其目的主要在于过滤网络上的不良信息,这是其过滤系统的主要功能,过滤内容主要体现在色情、暴力、犯罪等不良信息。在本课题中,根据基于传统遗传算法的网络信息过滤系统中提出了一种新的算法,即模糊遗传算法。模糊遗传算法是根据网络信息过滤系统中存在的不确定因素,包括参数,权重等因素的调整,在传统遗传算法优化的基础上,分析文档训练集的特点,提高文本分类的性能,加入模糊方法调整参数值和权重,使得这些因素能够随着系统环境的变化而变化,模糊遗传算法研究理论具体体现在以下四个方面:1、充分分析网络信息过滤模型网络信息过滤系统结构主要体现在数据包捕获、特征选择、优化算法、分类算法上,对该系统每一部分的关键技术进行理论分析,分析其优缺点,提出改进方法,充分提高网络信息过滤效果。2、文档训练集处理技术在以往对文档集的处理上,通常是将语料中的训练文本平等对待,没有考虑到各个文本所起的不同作用,为改进这些缺陷,在本课题中,将重点考虑训练文本对于分类所起的不同作用,根据文档重要性将文本区别对待。对于训练文档的处理主要体现在划分文本段落和设置文档权重。文本段落的划分主要包括将文本分为首段、中间段、尾段,及其不同段落的结合,针对每一部分段落在文本中所起的作用不同,选出重要的段落参与训练。由实验得出将首尾段结合在一起要比单独的段落分类效果要好。利用段落训练来代替整篇文本的训练,这不仅大大减轻了时间复杂度,而且也减轻了系统负担,提高了系统运行效率。在大规模的语料文档中,每部分文档所含的内容不同,在分类中所起的作用也是不同的,即将其称为文档的重要性,在本课题研究工作之一就是文档的重要程度,即文档权重,利用模糊计算方法应用到本系统中,根据不同的类别语料文本结合分类效果模糊调整文档权值,以使其重要的文档能够得到充分的应用,进一步提高训练语料文档的质量。3、遗传算法参数调整遗传算法中涉及到的参数主要包括种群大小,选择概率、交叉概率及变异概率的设定,进化代数的设定等。这些参数对遗传优化的质量有很大的影响,而在以往的遗传算法参数设置上都是预先设置的固定值,这些值不能随着遗传环境的改变而改变,因此,为改进这些参数,在本课题中利用模糊调整方法合理设置这些参数值,主要体现在对交叉率和变异率根据遗传搜索的不同环境下做出不同的调整,使其在遗传算法优化阶段得到很好的利用,使遗传算法优化取得最优解。4、模糊调整特征项权重文本特征项利用特征选择方法计算其相应权值,利用遗传算法优化训练特征项,选出最有意义的特征项,由于权值结果在很大程度上影响分类效果,因此,需要对特征项权重依据系统环境的变化做出适当调整。在本课题中提出一种改进特征项权重的方法,即利用特征项区分度的方法模糊调整特征项权重,将调整后的特征项权重生成新的分类模板,由实验证明可知,根据特征项权重调整后进行文本分类,实验效果高于调整之前的分类效果。