基于粗糙集理论的增量式学习算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zguohui69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的发展和应用,社会各个部门积累了大量的数据资料,数据挖掘是发现这些数据背后蕴涵的知识的重要手段。但是这些数据信息每天都在不断增加,如果在每次数据库更新之后都要对全部数据进行重新挖掘,将耗费大量的资源,这导致对增量式挖掘算法的迫切需求。将增量式学习算法与数据库的更新相结合,渐进式的对已有知识进行更新,避免对数据进行重新学习是增量式知识获取方法的主要思想。   粗糙集(又称Rough Set、Rough集、粗集)是数据挖掘的方法之一,它是一种处理不精确、不确定和模糊数据的新型数学工具,它能有效地从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用。   本文主要对基于粗糙集理论的增量式规则获取方法进行研究:   首先,针对已有的基于粗糙集的增量式学习算法IRAA(IncrementalRule Acquisition Algorithm)不能很好地解决的情形(即:新样本与原始规则集完全矛盾和类完全矛盾,或者新样本与原始规则集部分矛盾、类部分矛盾或类匹配,且在属性约简属性上,信息系统中能找到与新样本相同的样本)进行进一步的研究工作,提出一种改进的增量式学习算法IAIL(ImproveAlgorithm for Incremental Learning)。该算法在IRAA算法的基础上,将决策表的局部最小确定性作为阈值来控制规则产生,避免了重新训练,提高了算法的效率。实验表明,在保持测试样本正确识别率基本不变的情况下,该算法时间效率高于增量式知识获取算法IRAA,且规则个数有所减少。   其次,把规则树的思想与IAIL算法相结合,将原始规则集构建为树的形式,同时将规则的可信度作为参数标识每条规则,根据阈值选择可信度最高的规则进行更新。实验结果表明,该方法的时间效率较IAIL算法有很大的提高。   最后,本文在基于粗糙集的电子邮件过滤模型的基础上,提出基于识别反馈和增量学习的电子邮件过滤方法,该方法在邮件识别过程中增加了反馈环节,并将反馈的错判和未识别信息作为增量样本进行学习,通过动态调整矛盾规则的可信度和阈值控制的方法产生邮件规则,实验证明该方法能有效提高邮件的正确识别率。
其他文献
随着信息技术的发展及其在各个领域的渗透,很多公司或组织已经积累了大量的静态历史数据,人们已然意识到这些数据背后所隐藏的巨大价值,故对它所揭示的知识进行挖掘正在成为
数字电视是电视技术的一次革命,被称为继黑白电视和彩色电视之后的第三代电视,有着广阔的应用前景。数字电视一体机(iDTV)是模拟电视信号向数字电视信号转换阶段的过渡产品,
在信息社会中,信息在企事业单位中扮演的角色越来越重要。随着Web服务的广泛应用,如何保护信息资源在Web环境中不被非法访问成为了需要研究的一个重要课题。在当前软硬件环境
随着计算机技术和网络技术的迅猛发展,计算机系统已经从独立的主机发展到复杂的、互联的开放式系统,这种情况导致计算机及网络的入侵问题越来越突出,为保护系统资源,需要建立不同
学位
近年来,随着计算机视觉技术的飞速发展,尤其是智能通讯设备的大量普及,用户获得数字图像的方法越来越容易,图片数量呈现急速增长的态势。并且图片文件蕴含信息较量大,已成为
磁盘阵列技术能有效改善存储系统性能并提升系统可靠性。随着我国存储行业的发展,我国对存储技术越来越重视。当前环境下,网络存储成为热点,iSCSI技术脱颖而出,利用磁盘阵列
自然界的流体现象十分丰富。流体是由大量的、不断地作热运动而且没有固定平衡位置的分子构成的,基本特征是没有固定的形状,具有流动性。流体的模拟是计算机图形学的一个重点和
织物动态模拟在角色动画、路径规划、三维游戏、医学手术以及人机交互等诸多领域都有广泛应用。大量应用表明,实现织物动态实时模拟的关键在于加速物理模拟过程和碰撞检测过
在信息时代,信息传播的地位与作用日益突出,深刻影响着国际社会的政治、经济、科技和文化等各个领域。即时通讯网络已成为大众信息传播的主要途径,有必要研究即时通讯网络信息传
学位
视频取证是当前计算机取证领域的一个研究热点,涉及到计算机取证、人工智能、计算机图形图像、模式识别等多个研究领域。当前,视频取证的研究主要集中在智能视频监控方面,而忽略
学位