不完备信息系统的数据挖掘研究

来源 :大连理工大学 | 被引量 : 5次 | 上传用户:lsxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于部分数据缺失或者获取真实数据的限制等原因,使得在数据挖掘时往往面临的是不完备信息系统,即信息系统可能存在部分对象的一些属性值未知的情况或者无法获取真实数据信息的情况。粗糙集理论是一种刻画不确定和模糊数据的数学理论,能有效的分析和处理不精确、不一致、不完整等各种信息,并从中发现隐含的知识。本文以不完备信息系统为研究对象,以数据挖掘与知识发现为目的,研究了基于弱模糊相似关系的广义粗糙集理论、基于值的相似关系的粗糙集模型以及不完备信息系统中隐私保护的数据挖掘算法,具体研究工作如下:1.粗糙集理论在不完备信息系统中的扩展是目前研究不完备信息系统数据挖掘的理论基础。基于相容关系的粗糙集认为空值和任意已知属性值都相等;基于相似关系的粗糙集认为空值是不存在的而被忽略;基于限制相容关系的粗糙集虽然认为空值存在而且可以比较,却限制了相容关系中取值不全为空的两个对象无相同属性取值的情况。针对以上问题,本文提出一种基于弱模糊相似关系的广义粗糙集模型,研究表明了该粗糙集模型在不改变原信息系统的信息情况下,能更加客观的刻画不完备信息系统中对象的真实信息,证明了弱模糊相似关系是一个更加一般的二元关系。2.研究了基于相容关系、相似关系在不完备信息系统中的知识发现。研究发现在这两种关系的粗糙集模型中不能精确的描述对象之间相似的差异,导致不能精确地进行知识发现。针对这个问题,本文提出了基于属性值的相似关系粗糙集模型下不完备信息系统的知识发现方法。该方法通过计算出每个对象的属性值之间的相似度,从而能够准确的确定出每个对象相对一个概念集合的上、下近似。如果用户选择一个合适的相似度阈值,就可以通过上、下近似的计算找到满足相似度阈值的对象集合,最后精确的确定出满足条件的知识规则。实验结果说明了该方法是一个有效的不完备信息系统的知识发现方法。3.研究了不完备信息系统的隐私保护数据挖掘算法,基于随机变换的MASK算法、基于属性转换概率矩阵的方法PARD算法和基于部分隐藏的随机化回答方法RRPH算法。对以上算法进行了详细的分析,针对这些算法中存在的局限性,本文提出了一种高效的隐私保护关联规则挖掘算法—基于转换概率矩阵的部分随机化回答方法PRRPM。理论分析和实验结果表明了本文提出的PRRPM方法在隐私性、准确性、复杂度和适用性方面更具有优势。
其他文献
一、引言随着全球资本市场的快速发展以及经济一体化的形成,上市公司财务信息的真实性受到财务报表使用者越来越多的怀疑。上市公司财务舞弊不仅使股权投资者和债权者的利益受
考试管理工作是高校教学管理工作中的一项基本内容。分析、研究考试管理的特点和考试管理工作中存在的问题,通过有效的策略、方法来实施有效的考试,统筹规范考试管理工作,才能提
帮助弱势妇女获得自我保健能力的伙伴关系组织描述妇女健康促进中心(WCHP)是学术性社区内的一个伙伴关系团体,是设置于护理系的由护士管理的中心。这个由独立基金会资助、为期三年的
<正>保障性安居工程是一项重大的民生工程,关系到社会和谐稳定和人民群众幸福指数。审计署已连续六年统一部署开展该项审计,湖北省审计厅也高度重视,对开展好2017年度保障性
目的结合介入治疗患者特点,对现有的静脉血栓栓塞症预防流程进行改进,以提高质量,降低时间成本,体现效率、稳定、规范和持续质量改进。方法梳理我院现有的预防静脉血栓栓塞症
语文课是具有较强综合性的科目,语文课的拓展与应用在所有科目教学中具有着举足轻重的作用。本文立足于课本和课外两个角度,论述语文教学的拓展与应用。 Chinese course is
期刊
基于网络的信息交换为数字多媒体作品的使用、传播提供了便利的途径,同时由于数字作品极易被非法复制和篡改,使得数字作品的信息安全和版权保护成为迫切需要解决的问题。数字