论文部分内容阅读
随着数据库技术的发展和应用,社会各个部门积累了大量的数据资料,数据挖掘是发现这些数据背后蕴涵的知识的重要手段。但是这些数据信息每天都在不断增加,如果在每次数据库更新之后都要对全部数据进行重新挖掘,将耗费大量的资源,这导致对增量式挖掘算法的迫切需求。将增量式学习算法与数据库的更新相结合,渐进式的对已有知识进行更新,避免对数据进行重新学习是增量式知识获取方法的主要思想。
粗糙集(又称Rough Set、Rough集、粗集)是数据挖掘的方法之一,它是一种处理不精确、不确定和模糊数据的新型数学工具,它能有效地从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用。
本文主要对基于粗糙集理论的增量式规则获取方法进行研究:
首先,针对已有的基于粗糙集的增量式学习算法IRAA(IncrementalRule Acquisition Algorithm)不能很好地解决的情形(即:新样本与原始规则集完全矛盾和类完全矛盾,或者新样本与原始规则集部分矛盾、类部分矛盾或类匹配,且在属性约简属性上,信息系统中能找到与新样本相同的样本)进行进一步的研究工作,提出一种改进的增量式学习算法IAIL(ImproveAlgorithm for Incremental Learning)。该算法在IRAA算法的基础上,将决策表的局部最小确定性作为阈值来控制规则产生,避免了重新训练,提高了算法的效率。实验表明,在保持测试样本正确识别率基本不变的情况下,该算法时间效率高于增量式知识获取算法IRAA,且规则个数有所减少。
其次,把规则树的思想与IAIL算法相结合,将原始规则集构建为树的形式,同时将规则的可信度作为参数标识每条规则,根据阈值选择可信度最高的规则进行更新。实验结果表明,该方法的时间效率较IAIL算法有很大的提高。
最后,本文在基于粗糙集的电子邮件过滤模型的基础上,提出基于识别反馈和增量学习的电子邮件过滤方法,该方法在邮件识别过程中增加了反馈环节,并将反馈的错判和未识别信息作为增量样本进行学习,通过动态调整矛盾规则的可信度和阈值控制的方法产生邮件规则,实验证明该方法能有效提高邮件的正确识别率。