论文部分内容阅读
贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。其学习到的知识隐藏在变量间的连接权值和图形中的有向边。贝叶斯网络可以处理不完整和带有噪音的数据集,它用概率测度的权重描述数据间的相关性,用图形的方法描述数据间的相互关系,语义清晰,可理解性强。尤其是它在机器学习算法中的设计和分析方面扮演着越来越重要的角色。贝叶斯网络以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性成为当前数据挖掘众多方法中最为引人注目的焦点之一。20世纪80年代贝叶斯网络用于专家系统的的知识表示,90年代进一步研究可学习的贝叶斯网络。近年来,贝叶斯学习理论方面的成果不断涌现,并且出现了专门研究贝叶斯理论的组织和学术刊物ISBA。本文在全面介绍和分析贝叶斯网络的研究现状、研究热点和发展趋势的基础上,从概率推理、结构学习、参数估计等角度结合增量学习、主动学习、提升策略、后离散化策略等方法给出了多种分类和回归算法,同时给出了必要的理论论证和实验分析。研究成果具体包括: (1) 对广义朴素贝叶斯分类器的正确性和合理性进行了理论论证和实验分析,为朴素贝叶斯的进一步发展提供了理论依据。(2) 从不同的角度提出了三种贝叶斯混合学习算法。分别为基于增量学习机制的增量型混合决策树、基于主动学习和提升策略的贝叶斯主动提升算法、基于后离散化策略的后离散化混合决策树,以求解在学习过程中出现的样本选择、抑制噪音传播、表达规则显式化等问题。(3) 从理论上证明,利用正交旋转变换不仅可以使样本分布在原始信息无损的前提下逼近条件独立性假设,同时构造的最终模型可以自然地利用未分配类别标注样本中的信息。(4) 讨论了回归分析与相关分析的关系和特点,提出了一种基于贝叶斯网络的回归树学习算法。