论文部分内容阅读
多关系关联规则挖掘是多关系数据挖掘的一个重要分支,指通过分析关系数据库中各关系表之间的数据,以发现存在于单个表以及多个表中属性值之间的关联规则。经典的关联规则挖掘是基于关系数据库中的单个表上的数据实现的。在实际应用中,数据大多分散存储在关系数据库的多个表中,若将传统的关联规则挖掘技术直接应用于多个表中,将会成性能下降、统计偏斜、信息丢失、数据冗余等诸多问题。而多关系关联规则挖掘是通过分析一个关系数据库中多个表的数据,发现存在于单个表以及多个表的属性值之间关联规则的过程,此技术不仅可以大大缩短知识发现的过程,也可以提高算法的效率和准确率。本文在分析多关联规则挖掘研究技术的基础上,研究了一种多关系关联规则挖掘改进算法,并将其应用于某企业人力资源管理分析中,主要的研究工作如下:(1)分析单表关联规则挖掘算法以及多关系关联规则挖掘中的ILP(归纳逻辑程序设计)技术的基本原理,并对基于归纳逻辑程序设计的WARMR算法、FARMER算法等经典算法进行了讨论。(2)分析并总结了基于ILP技术的多关系关联规则挖掘算法的优点及缺陷:ILP关联规则挖掘算法较好地解决了统计偏斜问题,但极大依赖于θ包含与关键原子,每次仅能挖掘出与关键原子相关的各表中的关联规则,全部关联规则的挖掘需要不断变换关键原子来实现。因此,基于ILP技术的多关系关联规则的挖掘算法很难真正应用于实际数据挖掘项目中。(3)提出了一种基于CrossMine的多关系关联规则挖掘改进算法MID_CrossMine。CrossMine算法通过ID元组传播的技术在各表之间建立虚拟连接以实现关系关联规则的挖掘,有效地降低了信息的丢失,但由于在ID元组传播过程中,需设置用于分类的标签,而此分类标签选取带有很强的经验性。而本文提出的MID_CrossMine算法利用各关系表频繁1项集部分结果作为分类依据,并结合MTPA并行挖掘算法很好的解决了CrossMine缺陷并有效提升了挖掘效率。(4)以某企业人力资源数据库为挖掘背景,将MID_CrossMine算法应用于人力资源管理系统分析中,从员工构成、绩效考核、人员流动性等方面进行了挖掘分析,通过关系关联规则挖掘结果,有效的为企业建立了良好的预警机制,同时为企业的人员管理机制调整提供了参考。