基于贝叶斯网的不确定性数据清洗

来源 :云南大学 | 被引量 : 0次 | 上传用户:one_tester
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,信息数据急剧增长。由于原始数据本身不准确或是采用了粗粒度的数据集合,产生了大量的不确定性数据(Uncertain data),这些数据普遍存在于经济、军事、物流、金融、电信和科学计算等领域中。在不确定性关系数据库中,传统的关系数据库处理方法已经不能完全满足不确定性数据的处理需要。而数据清洗作为提高数据质量,完善数据查询结果的重要技术途径,受到越来越多的关注和重视。在元组带有概率维的不确定性数据库中进行SPJ查询(Select, Project, Join Query)的过程中,查询输出带有的概率维是为用户决策提供的一个重要参考和依据。本文针对不确定性数据库中SPJ查询的实时性和准确性,着眼于查询结果元组概率值的计算,以贝叶斯网(BN Bayesian Network)这一重要的不确定性知识表示及推理工具,结合不确定性数据库查询计划的具体特点,研究不确定性数据库中SPJ查询过程的数据清洗问题。本文的主要工作可概括如下:·基于不确定性查询计划的贝叶斯网构建。本文将从不确定性查询计划的特点入手,采用图遍历思想,构建贝叶斯网的有向无环图(DAG, Directed Acyclic Graph)结构,进而根据查询计划中元组的因果依赖关系给出DAG中各结点的条件概率参数(CPT, Conditional Probability Table),从而完成带有查询因果依赖关系的查询贝叶斯网(QBN Query BN)的构建,作为后续概率值清洗的基础。·概率推理是QBN构建的直接目的。为了实现实时正确的查询结果输出,本文结合SPJ查询的具体特点,采用吉布斯采样(Gibbs Sampling)的思想,提出了QBN的近似推理算法,由此计算查询输出结果中元组的概率值,为用户提供一个尽可能正确的答案和参考依据。·基于QBN推理计算出的概率值,本文将定义一个查询结果元组概率值与QBN推理计算概率值的比较方法,从而完成对元组概率维的数据清洗目的。·本文将通过实验,实现提出的QBN构建、推理及相应的概率值清洗方法,并对构建QBN的效率、推理算法的收敛性、以及数据清洗的准确率进行了实验测试,实验结果表明,本文提出的方法可行,比较高效。
其他文献
随着计算机技术和控制理论的发展,数控系统已广泛的应用于数控机床、机器人等领域,伺服系统是数控系统中的重要组成部分,其性能好坏直接影响着整个装备的控制效果。目前,日本、欧
数控系统对于国家的经济发展具有超越其经济价值的战略意义,也是一个国家装备制造业发展水平的重要标志。多通道多轴联动及复合加工技术是数控技术发展的主要趋势之一,各数控厂
随着社会的发展,公共安全的越发的重要。为了防止发生安全事故,应急模拟演练是不可候缺。但是人力、物力成本的不断增加,以及一些大规模的应急演练的不可实现性,则通过计算机软件
学位
学位
基于PC的数控系统硬件结构相对复杂、功耗较大,而采用ARM+DSP双核架构的数控系统,不仅控制处理能力较强,而且硬件结构简单、易于实现、功耗较小,具有高性能低成本的特点。然而,由
随着教育改革的深入开展和现代教育技术的飞速发展,以远程教育为主要实现手段的开放教育将先进的信息技术融合进了教辅和学习过程的各个环节。利用信息技术来促进教育教学技
学位
随着计算机技术的快速发展与广泛应用,现代数控技术正在朝着高速度、高精度、高柔性、功能集成化和智能化方向发展。而作为数控系统的一项重要功能,提供简单、高效的编程方法一
RSA算法是被研究得最广泛的公钥算法,在三十多年的发展历史当中,经历过各种攻击的考验,表现出优越的性能,逐渐为人们所接受,被认为是目前最优秀的公钥算法之一,并且已经被广