面向智能数据处理的图形模式研究

被引量 : 0次 | 上传用户:babaxsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图形模式是概率理论和图形理论的结合,是随机变量之间依赖关系的图形表示。在图形中的结点表示随机变量,边(有向或无向)的存在性表示随机变量之间的条件独立性。它具有形象直观的知识表示形式,以及更接近人思维特征的推理方式,被广泛用于专家系统、决策分析、模式识别,机器学习和数据采掘等领域,是近些年国内外智能数据处理的研究热点之一。图形模式由两部分构成,一部分是结构(图形),另一部分是参数(条件或边缘概率分布),分别用于定性与定量描述随机变量之间的依赖关系。图形模式研究的内容较多,其核心部分是贝叶斯网络(有向无环图),马尔科夫网络(无向图)和链图(有向和无向混合图)。本文主要研究贝叶斯网络和马尔科夫网络,并对链图作简要介绍。侧重研究图形模式在智能数据处理方面的应用,即如何转化数据为知识(图形模式学习)和知识转化为智能(基于图形模式的推理)。具体研究内容如下:1.具有完整数据和离散变量的图形模式学习对有代表性的方法和算法进行概述和分析。分别建立基于依赖分析思想和因果语义定向的贝叶斯网络结构学习方法,以及基于变量之间基本依赖关系、基本结构和依赖分析思想的贝叶斯网络和马尔科夫网络结构学习方法。这两种方法均能避免现有的打分-搜索方法的指数复杂性和局部最优结构问题,以及依赖分析方法中的大量高阶条件概率计算和边定向的局限性等问题。同时介绍了两种贝叶斯网络学习算法准确性评价方法。2.具有不完整数据和离散变量的图形模式学习由于具有不完整数据(或丢失数据)的现象普遍存在,而且由于丢失数据的存在无法直接进行图形模式学习,因此具有丢失数据的图形模式学习一直是一个被关注的重要而困难的研究课题。目前主要结合EM算法(或基于梯度的<WP=153>优化方法)和打分-搜索方法进行具有丢失数据的图形模式学习,效率低,而且易于陷入局部最优结构。本文提出了新的具有丢失数据的图形模式学习方法。该方法结合图形模式和Gibbs sampling,通过对随机初始化丢失数据的迭代修正与图形模式的优化调整进行具有丢失数据的图形模式迭代学习。由于Gibbs sampling过程收敛到全局平稳分布,因此可避免使用EM算法(或基于梯度的优化方法)所带来的局部最优和欺骗收敛问题。在每一次迭代中,基于图形模式分解联合概率能够显著提高抽样效率,通过图形模式的优化调整,使迭代过程中的图形模式逐渐接近于平稳分布的图形模式,直到满足终止条件结束迭代。本文研究了具有不完整数据的三种情况:(1)随机丢失数据情况。每一列含有部分随机丢失的数据,具有变量的维数(取值范围)信息和部分例子信息;(2)隐藏变量(或聚类变量)的丢失数据情况。隐藏变量(或聚类变量)列的数据完全丢失,不具有隐藏变量(或聚类变量)的维数信息和例子信息;(3)小样本集的丢失数据情况。大量的行数据完全丢失(没有观察到),具有所有变量的维数信息和部分例子信息。在对这三种情况现有的方法和算法进行分析的基础上,针对存在的一些问题分别建立了新的方法和算法,并进行了必要的理论论证和对比试验分析。具有连续变量的图形模式学习也可转化为不完整数据问题,其学习也是一个迭代过程。在迭代过程中,本文使用混合数据聚类方法离散化连续变量,在新的离散变量的基础上对图形模式进行优化调整,直到收敛。3.图形模式渐进学习同化和顺应是人类学习新知识的两个基本机制,人类的学习过程可以看作是对新知识的不断同化和顺应的过程。本文基于人类学习新知识的基本机制和图形模式的结构和参数变化的不同步性,建立一种新的图形模式渐进学习方法。该方法首先进行图形模式的原结构与数据集的适应性检验,以决定是否进行结构调整。如果需要,则对结构进行适应性调整,并在新结构的基础上进行参数调整,否则只在原结构的基础上进行参数调整,以获得新的图形模式。这一学习过程符合人类学习新知识的基本机制,并能够有效地刻画图形模式结构和参数的动态变化,不需要现有方法中的平稳性和马尔科夫性两个假设。4.图形模式基础理论和基于图形模式的推理从概率模式中随机变量之间的条件独立性,图形模式中结点之间的<WP=154>d-separation(或s-separation)性,以及二者之间的联系三个方面对图形模式的基础理论进行了概述。对贝叶斯网络基础理论中的核心概念d-separation标准,给出了非否定形式的定义(原定义以否定形式给出,很难理解),并介绍了有助于理解d-separation标准的两个贝叶斯网络模型(信息管道模型和小球模型)。分别从概率推断,证据传递和因果分析等方面对基于图形模式的推理进行了系统的阐述和分析,并结合例子予以必要的说明。5.图形模式分类器在图形模式学习方法的基础上,分别建立了基于类约束图形模式分类器的学习方法和一般图形模式分类器的学习和优化方法,并在0-1损失下给出了图形模式分类器的最优性证明。同时介绍了常用的分类器分类准确性估计方法和不同分类器分类准确性比较方法。6.基于图形模式的特征子集选择特征子集选择是一个尽可能多的排除不相关和冗余特征以优化分类器性能的过程,是机器学习、模
其他文献
<正> 一万历时期的矿监税使是明代历史研究中的一个重要问题,它对明王朝的衰落产生了很大的影响。
目的了解乙型肝炎(HB)疫苗纳入免疫规划后,江苏省HB的流行病学特征及影响因素。方法根据《2006年全国人群乙肝等有关疾病血清学调查总体方案》,对3 906人进行现场和血清流行
城市土地储备制度是我国土地使用制度的一项创新,它是在我国土地使用制度改革、土地市场发展和国有企业改革过程中应运而生的以盘活城市存量土地、实现城市土地资源可持续发展
本文通过对动画短片创意的思维方式以及动画短片创意所具备条件的详细分析,指出动画短片创意要从作品意境和风格样式入手,而动画短片创意具备四个条件,具备了这些条件,通过自
在纳米碳酸钙的生产中,碳酸钙结晶粒子大小、结晶形状、粒度分布及分散性能是其重要质量指标。粒度小、分布均匀、分散性能好的纳米碳酸钙产品具有更高的经济利用价值。原料
我们生活在一个危机四伏的时代,我们的企业生存在一个充满危机的市场环境之中,到处都是险滩沼泽,稍不注意就会陷入经营困境中。营销作为企业的一个重要职能之一,在企业中的地位变
作为新文化运动的思想前驱,梁启超以“为我所用”的心态转道日本引介西学,其兴奋点始终在政治,晚期著作《欧游心影录》更是为我们展现了一个被遮蔽的西方世界,从而失去了整体
根据动车组温度参数监测的必要性以及复杂测试环境对监测系统提出的新要求,研制了基于无线传感器网络的牵引传动系统温度实时监测系统。给出了基于ZigBee协议的监测系统总体
介绍了当前客车安全监测系统的特点,将ZigBee无线传感网络技术应用于客车安全监测系统,组建了ZigBee无线传感网络,详细设计了该系统的硬件结构,给出了系统的硬件电路图,并设
本文运用认知语言学理论阐释语言的性质,从认知——功能视角分析语言结构,探讨语言功能,论述翻译的功能途径,是译学研究的一条重要途径。