论文部分内容阅读
大数据时代最重要的不在于“大量的数据”,而在于思维的变革,变革之一即是从注重因果关系到注重相关关系。因果关系即是“为什么”,是导致事物发生的根本原因,而这常常是难以捉摸的,晦涩艰深的,甚至是不可得知的。相关关系即是“是什么”,即是事物之间的依存关系,相比因果关系,这要容易探知,而且在大部分情况下能够替代因果关系的作用。相关关系的评估与发掘已经或正在影响着数据挖掘、机器学习、知识发现等广阔领域的发展。 传统的相关关系评估方法包括相关系数、互信息、机器学习和数据挖掘里面的一些相关性度量方法,然而这些方法具有很大的局限性,不能够对非线性等更宽泛更一般的相关关系进行公平地评估,新近提出的统计量MIC能够有效的评估两变量相关关系,然而却无法在多项式时间计算求解,且直到目前为止,仍缺乏多变量相关关系评估和发掘的有效方法。 针对上述问题,本文提出了一种衡量两变量相关关系强度的统计量ARTMIC(交替递归型拓扑最大标准化互信息),以及其它一些衡量关系性质的统计量。这些统计量能够有效而公平地评估包括线性和非线性关系在内的较为宽泛的相关关系,并且弥补了Reshef所提出的统计量(MIC)无法在多项式时间精确求解的缺陷,解决了MIC不能识别“局部随机”现象的问题。使用ARTMIC等统计量分析了美国自1959年至2013年的19个典型指标的数据集,发现了一些新颖的两变量相关关系。 此外,借助化学体系的思想,提出了“理想相关体系”的多变量相关关系框架,探讨了两者的映射关系。通过证明三个互信息分解定理,在一定程度论证了多变量相关关系的可分解性。提出了理想情况下和非理想情况下的多变量相关关系评估和发掘的方法,通过模拟实验和真实实验验证了多变量相关关系评估和发掘方法的有效性。