基于约束学习的观测数据因果关系发现研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shuangsssss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类对自然的探索活动本质上是发现各种现象的原因,因果关系能够给出各种现象的解释,而这些解释能帮助我们理解和掌握自然规律。设计良好的实验研究是获得因果关系的最有效的方法,但是实验研究容易受伦理道德、实验代价等因素的限制而无法开展。随着数据收集和存储技术的快速发展,在工程、医疗和科学实验等领域每天都产生不可计量的观测数据。在随机实验方法无法开展时,可以转向基于观测数据的因果发现。基于观测数据的因果发现方法即是利用科学的理论和方法,揭示了蕴含在海量的观测数据中的因果关系。从观测数据中发现因果关系具有非常重要的意义,同时也面临着许多实际的困难。因果关系没有普遍被接受的定义,不同的领域中的因果关系有不同的解释,很难使用统一的形式表达因果关系。在数据因果充分的条件下因果图模型给出了观测数据中对应的因果关系的直观表示。然而当数据因果充分条件在所有观测变量下不满足时往往不能构造正确的因果图。同时对观测数据中的变量构建因果图模型的效率与变量的数量成指数关系,随着变量数量的增加,全局因果图模型的约束学习代价将变的非常高。在实际的应用背景下,用户可能并不需要了解整个观测数据中包含的所有因果关系,发现其中一部分感兴趣的因果关系具有更大的理论意义和实现价值。为了解决现有因果模型学习和利用效率不高的问题,本文以研究观测数据因果关系发现为基础,针对观测数据的变量的一个子集学习对应的模型,通过获得的模型来表达和推导直接因果关系。论文的主要研究内容如下:1.从因果关系理论出发,研究了不同的因果关系约束学习方法,针对现有因果关系约束方法需要大量条件独立性计算的问题,提出了因果关系一致性约束方法,通过融合目标变量在不同控制变量条件下的条件关联来实现变量约束,避免了大量条件独立计算。在一致性约束思想的基础上,提出了基于观测数据等价类的因果关系一致性约束方法,方法改进了观测数据中变量一致性约束策略,有效地降低了观测数据一致性约束实现的代价。对直接因果关系进行了明确的定义,并综合缺省逻辑和一阶谓词的特点,利用缺省逻辑的蕴含式扩展将直接因果关系用因果规则的形式进行表达,为变量的直接因果关系提供了一个简洁的语法和形式化表达的工具,并在因果规则的基础上构建了因果预测和因果诊断的模型。2.因果规则是直接因果关系的有效表达形式,利用直接因果关系的理论从海量的观测数据中发现实际的因果规则具有重大的现实意义。针对传统关联规则兴趣度评价方法的不足,将因果关系引入关联规则兴趣度评价,基于信息量提出了一种因果规则度量方法。方法将不同关联规则之间的关系作为先验知识来剔除虚假和错误的因果规则,以兴趣度评价的方式实现了直接因果关系发现;同时提出了相应的算法,并通过实际数据比较和分析了该算法的性能。在关联规则的基础上进行直接因果关系发现能充分了关联规则挖掘的技术,为海量观测数据的直接因果关系发现提供了有益的探索。3.针对基于因果贝叶斯网络的因果关系发现具有复杂度高、计算难度大等缺点,在直接因果关系的形式化表达基础上,构建了一个通用的直接因果关系发现框架。框架基于变量一致性约束的思想,利用关联和部分关联的分层约束实现直接因果关系的发现。同时框架将单一因素的直接因果关系发现扩展到组合变量的直接因果关系,解决了传统因果发现方法无法表示组合因果关系的问题。基于框架提出了一个高效的因果规则挖掘算法,设计了顺序等价类存储表和局部顺序等价类存储表,结合有效的数据表示和搜索空间剪枝技术,提高了发现因果规则的效率。通过充分的实验评估,算法在不同的数据集合中都实现了较好的性能表现,相对于传统的因果关系发现算法不仅提高了效率,并且在不同的数据集上具有良好的扩展性。因果关系发现是知识发现领域的一个重要的课题,本文从观测数据的角度研究了直接因果关系的约束方法,讨论了因果规则的表达和推理形式,对海量观测数据的直接因果关系挖掘进行了探索,对数据挖掘领域中利用观测数据进行因果关系发现的理论研究和具体实践具有重要意义。
其他文献
<正>2012年8月底,钦州市钦南区关工委成员、钦州市文昌社区居委会干部在钦州市钦南区文昌社区青少年活动中心为在教坛耕耘50余载、退休后还继续发光发热的老同志张传桢举办了
随着经济与全球化的发展,传统文化的经济利益逐渐凸显,对于传统文化的保护就显得非常重要。文章主要通过对传统文化知识产权保护的基本法律特征,以及传统文化知识产权法律保
将一种新型固相碳源PP应用于同步硝化反硝化脱氮试验研究中,结果表明,反应器对NO3--N、NH4+-N、TN的去除率分别达到了85.36、93.69和86.53%,脱氮效果良好;出水DOC浓度仅为8.9
<正>中国是一个农业大国,"三农"问题关系到国家的发展和稳定,一直是党和国家工作的重中之重。解决好"三农"问题,根本在于深化改革,走中国特色现代化农业道路。厉庄镇通过发展
创新文化产业越来越成为当今世界经济发展的基石,“十二五”计划中,政府把发展创新文化产业提高到经济发展的战略高度。作为创新文化产业核心组成部分之一的艺术设计由于它专业
目的回顾应用果蝇作为学习记忆模式动物的研究工作.方法文献调研.结果经实验室筛选出dnc、rut、amn、rad、cabbage、turnip、radish、nalyot、tumip、nemyp153、ala等表现条
<正>我国进城务工人员随迁子女逐年增加,尤其是近年来不断有农村学生通过"择校"进入城区学校就读,导致农村学校生源流失严重。虽然农村学校生源减少,但是却为农村学校实施"小
调查发现,当代大学生政治信仰总体积极向上、政治认同度高、对未来充满信心,但也存在着功利化、多元化、模糊化甚至去政治化等问题。鉴于此,必须加强高校意识形态阵地建设,坚
介电弹性体(DE)是电活性聚合物的一种,在外加电压下可以产生大形变从而将电能转化为机械能。介电弹性体驱动器(DEA)由于其优越的性能如质量轻,能量密度大,效率高等,而被广泛