粗糙集及其在KDD中的应用研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:mzl521fnn1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集(Rough Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。RS理论是由波兰学者Plawlak.Z在1982年提出的。1991年Plawlak.Z发表了专著《Rough set:Theoretical Aspects ofReasoning about Data》,系统全面地阐述了RS理论,奠定了严密的数学基础,从而掀起了粗糙集的研究高潮。该书与1992年出版的RS理论应用专集较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献。从1992年至今,每年都召开以RS为主题的国际会议,推动了RS理论的拓展和应用。目前RS理论已引起了越来越多的科研人员的关注。粗糙集理论的应用和其算法的研究,是近年来知识发现、数据挖掘领域的一个热门话题。粗糙集当中有一个核心问题就是约简,所以,有关约简算法的研究也有很多,但无论是A.Skrown的分辨矩阵还是Pawlak的原始算法,都是从属性的约简开始的。本文通过分析决策表约简规则的本质,提出了一种属性值的直接约简算法,并通过一个商场的购物决策行为验证了我们的算法的正确性,从而简化了约简算法的步骤。经典粗糙集是基于不可区分关系,即等价关系的。事实上,在实际应用中由于所处理的数据不完整,也就很难满足等价关系这一条件。而相似关系是一种普遍存在的关系,所以,用相似关系来代替经典粗糙集的不可区分关系是一种自然的推广方式。本文立足于应用,进一步分析了经典粗糙集在实际应用中的缺点和局限性以及Roman slowinski和Daniel Vanderpooten提出的一种称之为ε-indiscernibility的算法所存在的潜在决策风险,并就此,对前ε-indiscernibility算法进行了改进,增强了这一算法的适应性,从而降低了决策者的决策风险,并通过一个银行客户信贷问题得到了验证。
其他文献