基于重构变异算子遗传算法的文本信息过滤研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:tianzhiyou258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络信息呈现出几何倍增的趋势。海量信息在给人们生活带来便利的同时,也导致了一系列问题:如数据的检索和查找变得更复杂;垃圾短信、不良信息的识别、过滤以及屏蔽变得更难实现等。信息过滤(Information Filtering,IF)技术在面对复杂的网络环境中应运而生。通过对网页中无关、不良信息的过滤,使用户能更快速、准确的得到所需信息,从而提高信息搜索的效率和准确率。本文在提出纯度基尼指数的基础上,对文本预处理算法进行研究,并提出了重构变异算子遗传算法。结合纯度基尼指数在文本信息预处理中的应用,将重构变异算子遗传算法应用于文本信息过滤,提高了文本信息过滤中用户类别模板的过滤精度。取得的主要成果有:1.提出了基于纯度原理基尼指数的文本特征选择方法文本信息预处理是文本信息过滤前期的准备工作,文本的特征选择是信息预处理的关键,特征选择的目的是选出最能代表文档特征的特征词作为特征空间维数。本文针对于传统基尼指数在文本信息预处理上的缺点进行了改进,并将其应用于文本的特征选择中,降低了原始文本的空间维数、减小了时间复杂度,提高了分类器的分类精度。2.基于重构变异算子遗传算法的提出并应用于文本信息过滤重构变异算子遗传算法用来平衡交叉算子与变异算子的地位,进而优化用户模板。对四个类别进行过滤精度对比实验,结果表明:基于重构变异算子遗传算法能更好地应用于文本信息过滤。最后设计并实现了基于重构变异算子遗传算法的互联网文本信息过滤系统,它能准确、快速地在海量信息中找到所需信息,提高互联网文本信息过滤的精度和效率。
其他文献
随着计算机技术的飞速发展,实时系统(real-timesystem)的应用日益广泛。在实际应用中,随着实时系统规模不断扩大、功能不断增强,嵌入其中的软件复杂程度也在迅速增加,从而导致实
本文分析了目前国内外专家系统、特别是水产养殖领域专家系统的研究现状,针对存在的一些问题,在做进一步的用户需求分析,并深入研究原有鱼病诊断专家系统和相关文献的基础上,
煮糖生产过程的自动控制系统的关键在于糖分浓度、流量的实时精确计量,电容电阻复合成像系统可以实现在线实时显示罐内的糖结晶情况,对多组分的糖水能很好地测量浓度。成像系
本文分析了网格工作流的数据资源模型,针对网格工作流数据资源模型中不同数据的不同特点,提出了网格工作流系统内和网格工作流系统之间数据访问的四种方法:基于OGSI通知/订阅机
随着嵌入式系统的应用范围越来越大,保护其中敏感数据的安全也越来越重要了。针对这个问题,可以使用加密文件系统对敏感数据进行加密存储,从而达到数据安全的目的。嵌入式系统的
随着计算机技术飞速发展,软件的规模日益庞大,软件的质量也越来越难以控制和管理。为了能够按时并按预算交付给用户满意的高质量软件,需要采用高效灵活的软件开发模型,并结合科学
分布式计算技术是指在网络计算平台上开发、部署、管理和维护以资源共享和协同工作为主要目标的应用系统。把面向对象技术与分布式计算技术相结合则形成了分布式对象技术,它
本文对XML文档的安全发布过程中的关键技术进行了研究。 首先为了形式化表示XML文档中的公共知识,本文提出了一种基于值等的XML函数依赖的定义。该定义通过关联节点集的概
数据仓库元数据研究虽然得到广泛关注,但还没有建立比较成熟的理论体系,甚至没有一个明确的定义.建立统一的数据仓库元数据模型和管理规范,是数据仓库元数据研究领域必须解决
当前互联网正在经历IPv4向IPv6的过渡阶段,随着流媒体应用与IPv6技术的显著发展,传统运行在IPv4网络应用软件有必要移植到IPv6网络环境下。研究和实现IPv6网络环境下流媒体传送