论文部分内容阅读
近二十年来,世界经济带动信息技术急剧发展,Internet 技术的应用飞速普及,人们收集数据的能力的大幅提高,使得可以获取得到的和需要处理的数据规模越来越巨大。面对“数据丰富而知识匮乏”的挑战,数据挖掘(Data Mining)和知识发现(Knowledge Discovery)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。分类是数据挖掘中一项十分重要的任务,其目的是找出分类函数或者分类模型。目前常用的分类方法主要是一些机器学习的方法,如决策树方法、规则归纳方法、神经网络方法、遗传算法、蚂蚁算法等。在众多的分类方法中,贝叶斯网络作为一种有效的知识表示方式和概率推理模型,是处理不确定信息的强有力图形决策化分析工具。有其坚定的理论基础、自然的知识表示方式、灵活的推理能力和方便的决策机制,受到越来越多的重视。近年来,基于贝叶斯网络的数据挖掘取得了良好的效果,成为研究热点。贝叶斯方法是基于贝叶斯定理而发展起来的用于系统阐述和解决统计问题的方法。以此建立的用于分类的贝叶斯网络叫做贝叶斯分类器。贝叶斯分类器是特殊形式的贝叶斯网络,变量的选取和状态均已确定,属性结点已知,类结点未知。贝叶斯分类器家族有三类常见的分类器:朴素贝叶斯分类器NBC,树扩展朴素贝叶斯分类器TANC 和贝叶斯网络分类器BNC。贝叶斯分类器的学习包括结构学习,参数学习和最大后验概率类结点的推理。完全的贝叶斯网络的结构学习是一个NP难问题,研究学者一般采用近似的方法来学习,Duda 提出了朴素贝叶斯NB 结构,Friedman 提出了树扩展朴素贝叶斯TAN 结构;Keogh 提出了SP 结构;Huajie Zhang 提出了SN 结构;Peter Lucas 提出了FAN 结构;Cheng 提出了BAN 和GBN 两种网络结构;石洪波等对TAN 结构进行了优化。它们在贝叶斯分类器结构学习中均取得了较好的效果。如何在较短的时间里得到更加优化的结构一直是大家研究的重点问题。遗传算法(Genetic Algorithm)是模拟自然界生物进化过程与机制求解极值问题的一种自组织、自适应人工智能技术。它来源于达尔文的自然进化理论和孟德尔的遗传变异理论,具有坚实的生物学基础。遗传算法是一种全局搜索优化算法,它通过模拟生物进化过程,得到全局最优解。引入遗传算法改进贝叶斯网络的结构学习是本文要解决的问题。本文的主要工作如下: ⑴归纳综述了贝叶斯网络的理论框架,简要讨论了贝叶斯网络的结构学习算法。⑵在程泽凯等[78,79] 用MATLAB语言基于BNT(Bayesian Networks Toolkit)建构的贝叶斯分类器实验平台MBNC(Bayesian Networks Classifier using MATLAB)基础上,扩展了MBNC实验平台的遗传算法模块,进行数据的预处理、实现了基于遗传算法的贝叶斯分类器结构学习算法,进而实现了基于遗传算法的贝叶斯分类器家族的多种分类器。(3) 为将遗传算法引入贝叶斯结构学习中来,深入研究了遗传算法及基于MATLAB 的实现,重点研究了基于整数编码的遗传算法及TSP 问题求解;设计高效的求解TSP 问题的遗