模糊遗传算法及其在网络信息过滤系统中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:hzq1989aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息数量在互联网上日益庞大,对于网络信息质量的要求也越来越高,越来越多探索网络信息过滤的新技术正在逐步的发展中,由于网络信息动态性极强,而这些动态性主要表现在网页内容的增减和链接地址的动态变化上,因此网络信息内容过滤主要针对网页上的动态信息流,在处理大量的冗余信息数据时,还要满足用户对动态信息的需求量,过滤用户不感兴趣的信息,网络信息过滤系统就是从动态的数据流中收集或去掉某些文本信息。开发出一种网络信息过滤系统其目的主要在于过滤网络上的不良信息,这是其过滤系统的主要功能,过滤内容主要体现在色情、暴力、犯罪等不良信息。在本课题中,根据基于传统遗传算法的网络信息过滤系统中提出了一种新的算法,即模糊遗传算法。模糊遗传算法是根据网络信息过滤系统中存在的不确定因素,包括参数,权重等因素的调整,在传统遗传算法优化的基础上,分析文档训练集的特点,提高文本分类的性能,加入模糊方法调整参数值和权重,使得这些因素能够随着系统环境的变化而变化,模糊遗传算法研究理论具体体现在以下四个方面:1、充分分析网络信息过滤模型网络信息过滤系统结构主要体现在数据包捕获、特征选择、优化算法、分类算法上,对该系统每一部分的关键技术进行理论分析,分析其优缺点,提出改进方法,充分提高网络信息过滤效果。2、文档训练集处理技术在以往对文档集的处理上,通常是将语料中的训练文本平等对待,没有考虑到各个文本所起的不同作用,为改进这些缺陷,在本课题中,将重点考虑训练文本对于分类所起的不同作用,根据文档重要性将文本区别对待。对于训练文档的处理主要体现在划分文本段落和设置文档权重。文本段落的划分主要包括将文本分为首段、中间段、尾段,及其不同段落的结合,针对每一部分段落在文本中所起的作用不同,选出重要的段落参与训练。由实验得出将首尾段结合在一起要比单独的段落分类效果要好。利用段落训练来代替整篇文本的训练,这不仅大大减轻了时间复杂度,而且也减轻了系统负担,提高了系统运行效率。在大规模的语料文档中,每部分文档所含的内容不同,在分类中所起的作用也是不同的,即将其称为文档的重要性,在本课题研究工作之一就是文档的重要程度,即文档权重,利用模糊计算方法应用到本系统中,根据不同的类别语料文本结合分类效果模糊调整文档权值,以使其重要的文档能够得到充分的应用,进一步提高训练语料文档的质量。3、遗传算法参数调整遗传算法中涉及到的参数主要包括种群大小,选择概率、交叉概率及变异概率的设定,进化代数的设定等。这些参数对遗传优化的质量有很大的影响,而在以往的遗传算法参数设置上都是预先设置的固定值,这些值不能随着遗传环境的改变而改变,因此,为改进这些参数,在本课题中利用模糊调整方法合理设置这些参数值,主要体现在对交叉率和变异率根据遗传搜索的不同环境下做出不同的调整,使其在遗传算法优化阶段得到很好的利用,使遗传算法优化取得最优解。4、模糊调整特征项权重文本特征项利用特征选择方法计算其相应权值,利用遗传算法优化训练特征项,选出最有意义的特征项,由于权值结果在很大程度上影响分类效果,因此,需要对特征项权重依据系统环境的变化做出适当调整。在本课题中提出一种改进特征项权重的方法,即利用特征项区分度的方法模糊调整特征项权重,将调整后的特征项权重生成新的分类模板,由实验证明可知,根据特征项权重调整后进行文本分类,实验效果高于调整之前的分类效果。
其他文献
随着计算机技术的飞速发展,分布式异构系统逐渐成为解决复杂问题的有效工具。它的主要目标是通过网络互连实现全系统范围内的资源的共享,同时它还利用高效的资源管理和任务调
词汇语义相似度计算作为中文信息处理中的一个关键问题,国内外众多学者已对其开展了广泛而深入的研究,它是信息检索、信息抽取、文本分类、词义排歧和机器翻译等重点研究领域
下料问题存在于生产的各个领域,如剪切金属板材和带材、锯切木板、切割平板玻璃等。其中二维下料的应用较为广泛,而矩形下料是二维下料的基础。本文研究的是矩形二维板材下料
蛋白质磷酸化在细胞生长、分化、凋亡整个过程中扮演至关重要的角色。磷酸化蛋白质的特定位点能起到开关该蛋白质某种功能的目的,从而实现在不同生物过程中该蛋白发挥不同作
圆片二维下料问题广泛存在于电机、机械制造、航空航天等领域。如何提高下料过程中材料的利用率一直是排样专家研究的热点。根据现有的剪冲下料工艺,本文提出在固定大小板材
Ad Hoc网络是一种具有高度动态拓扑结构、节点任意移动的无线自组织网络。网络灵活机动、适应环境能力强,对终端性能要求不高,不需要固定基础设施的支持,具有较强的鲁棒性、抗毁
学位
最近几年来,用递归神经网络被越来越广泛的应用于推荐系统。其背后的原因是,用户的行为序列中存在一些固有的模式,而递归神经网络往往能很好的挖掘出这些模式。递归神经网络
业务流程是为特定的对象(客户)创造价值的过程,是达成特定目标的一系列相互关联、有组织的活动或任务。作为一种特殊的组合服务,业务流程可以被封装成可重用的组件形式并集成
自从二十世纪九十年代以来,核方法已经被广泛应用于模式识别与机器学习领域。作为一种基于非线性映射的非线性方法,核方法等价于先将原始数据通过非线性映射变换到一高维空间
如今,网络信息资源的获取成为人们关注的重点,有价值的信息已经成为一种新的财富资源。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,能够在较大的程度上解决信