论文部分内容阅读
由于部分数据缺失或者获取真实数据的限制等原因,使得在数据挖掘时往往面临的是不完备信息系统,即信息系统可能存在部分对象的一些属性值未知的情况或者无法获取真实数据信息的情况。粗糙集理论是一种刻画不确定和模糊数据的数学理论,能有效的分析和处理不精确、不一致、不完整等各种信息,并从中发现隐含的知识。本文以不完备信息系统为研究对象,以数据挖掘与知识发现为目的,研究了基于弱模糊相似关系的广义粗糙集理论、基于值的相似关系的粗糙集模型以及不完备信息系统中隐私保护的数据挖掘算法,具体研究工作如下:1.粗糙集理论在不完备信息系统中的扩展是目前研究不完备信息系统数据挖掘的理论基础。基于相容关系的粗糙集认为空值和任意已知属性值都相等;基于相似关系的粗糙集认为空值是不存在的而被忽略;基于限制相容关系的粗糙集虽然认为空值存在而且可以比较,却限制了相容关系中取值不全为空的两个对象无相同属性取值的情况。针对以上问题,本文提出一种基于弱模糊相似关系的广义粗糙集模型,研究表明了该粗糙集模型在不改变原信息系统的信息情况下,能更加客观的刻画不完备信息系统中对象的真实信息,证明了弱模糊相似关系是一个更加一般的二元关系。2.研究了基于相容关系、相似关系在不完备信息系统中的知识发现。研究发现在这两种关系的粗糙集模型中不能精确的描述对象之间相似的差异,导致不能精确地进行知识发现。针对这个问题,本文提出了基于属性值的相似关系粗糙集模型下不完备信息系统的知识发现方法。该方法通过计算出每个对象的属性值之间的相似度,从而能够准确的确定出每个对象相对一个概念集合的上、下近似。如果用户选择一个合适的相似度阈值,就可以通过上、下近似的计算找到满足相似度阈值的对象集合,最后精确的确定出满足条件的知识规则。实验结果说明了该方法是一个有效的不完备信息系统的知识发现方法。3.研究了不完备信息系统的隐私保护数据挖掘算法,基于随机变换的MASK算法、基于属性转换概率矩阵的方法PARD算法和基于部分隐藏的随机化回答方法RRPH算法。对以上算法进行了详细的分析,针对这些算法中存在的局限性,本文提出了一种高效的隐私保护关联规则挖掘算法—基于转换概率矩阵的部分随机化回答方法PRRPM。理论分析和实验结果表明了本文提出的PRRPM方法在隐私性、准确性、复杂度和适用性方面更具有优势。