数据集中相关关系的评估与发掘

来源 :中南大学 | 被引量 : 0次 | 上传用户:hengtonggss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代最重要的不在于“大量的数据”,而在于思维的变革,变革之一即是从注重因果关系到注重相关关系。因果关系即是“为什么”,是导致事物发生的根本原因,而这常常是难以捉摸的,晦涩艰深的,甚至是不可得知的。相关关系即是“是什么”,即是事物之间的依存关系,相比因果关系,这要容易探知,而且在大部分情况下能够替代因果关系的作用。相关关系的评估与发掘已经或正在影响着数据挖掘、机器学习、知识发现等广阔领域的发展。  传统的相关关系评估方法包括相关系数、互信息、机器学习和数据挖掘里面的一些相关性度量方法,然而这些方法具有很大的局限性,不能够对非线性等更宽泛更一般的相关关系进行公平地评估,新近提出的统计量MIC能够有效的评估两变量相关关系,然而却无法在多项式时间计算求解,且直到目前为止,仍缺乏多变量相关关系评估和发掘的有效方法。  针对上述问题,本文提出了一种衡量两变量相关关系强度的统计量ARTMIC(交替递归型拓扑最大标准化互信息),以及其它一些衡量关系性质的统计量。这些统计量能够有效而公平地评估包括线性和非线性关系在内的较为宽泛的相关关系,并且弥补了Reshef所提出的统计量(MIC)无法在多项式时间精确求解的缺陷,解决了MIC不能识别“局部随机”现象的问题。使用ARTMIC等统计量分析了美国自1959年至2013年的19个典型指标的数据集,发现了一些新颖的两变量相关关系。  此外,借助化学体系的思想,提出了“理想相关体系”的多变量相关关系框架,探讨了两者的映射关系。通过证明三个互信息分解定理,在一定程度论证了多变量相关关系的可分解性。提出了理想情况下和非理想情况下的多变量相关关系评估和发掘的方法,通过模拟实验和真实实验验证了多变量相关关系评估和发掘方法的有效性。
其他文献
最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问题——大量垃圾邮件的涌现,这也
摘要:早期诊断乳腺癌的最佳方法目前仍是钼靶X线摄影,特别是在乳腺良、恶性病变的鉴别诊断和乳腺癌早期诊断方面具有不可替代的作用。医生阅读大量的乳腺X线照片后的准确度会
随着中国电信“九大战略”的提出,信息化战略规划(ITSP)以及信息化建设开始在各省电信公司逐步实施。为了解决旧系统没有考虑全局的需求和管理所造成的信息孤岛的现象,提出了OS
嵌入式产品正以不可思议的速度闯入人们的日常生活。MP3、MP4、智能家电、智能手机等电子产品到处可见。这些现象表明,嵌入式时代已经在不知不觉中来临。随着硬件技术的飞速发
近年来,随着分布式计算技术的深入研究,网格计算和Web服务都得到了飞速发展。在网格计算方面,网格的概念已经从传统的利用分散的计算资源进行高性能计算,转变为整合资源共享
随着网格研究的不断深入以及网格基础设施的迅速发展,越来越多功能强大的网格应用不断出现。网格工作流系统是众多网格应用中非常具有发展前景的一个领域。网格工作流系统协调
对象存储是存储领域新兴的发展趋势,它综合了SAN和NAS的优点,同时具有SAN的高速直接访问和NAS的数据共享等优势。与传统存储系统比较,实验证明对象存储是一种具有高性能、高
在信息检索过程中,在选择相关信息结果时,摘要常被用来支持用户快速、准确得进行判断。一种强调简洁(较短的长度)和简单(比较少的复合句)的指示性摘要被提出来,称之为“一瞥
随着我国经济实力的不断增强,大量的私家车进入了普通群众的生活中,机动车辆的管理工作也成为城市发展亟待解决的问题。传统的人工管理方式不但成本高而且效率差,在交通管理
随着高校后勤社会化改革的不断深入,绝大多数的高校餐饮部门已经走上了市场化的道路。作为一个经营实体,高校餐饮部门不仅要为全校师生提供高质量的餐饮服务,还要维持其自身的生