论文部分内容阅读
分类是数据挖掘中一项非常重要的任务,在现实生活中有着广泛的应用。例如,根据电子邮件的标题和内容判断其是否为垃圾邮件。构造分类器的方法很多,常见的有贝叶斯网络、决策树、基于实例的学习、人工神经网络、支持向量机、遗传算法、粗糙集、模糊集等等。其中,贝叶斯网络正以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为众多方法中最为流行的方法之一。鉴于学习最优的贝叶斯分类器如同学习贝叶斯网络是一个NP难问题,学习朴素贝叶斯分类器得到了广大学者的重视。朴素贝叶斯分类器基于一个简单而不现实的假设:在给定类标记时属性值之间相互条件独立。可最近的有导师学习表明:即便是这样一个惊奇简单且具有很强的属性条件独立性假设的贝叶斯分类器,简称为朴素贝叶斯分类器,其分类性能仍然可与决策树算法、k-近邻算法等经典算法相当。一个自然的问题是:释放朴素贝叶斯分类器的属性条件独立性是否可以使得它的分类性能更好?为回答这个问题,学者们提出了许多改进朴素贝叶斯分类器的方法,概括起来主要可以分为三类:1)结构扩展,这一类方法用有向边来表达属性之间的依赖关系;2)属性选择,这一类方法在属性空间搜索一个属性子集;3)局部学习,这一类方法在测试实例的局部构建一个朴素贝叶斯分类器。本文以朴素贝叶斯分类器为基本对象,研究朴素贝叶斯分类器的各种改进方法,提出了隐藏扩展的朴素贝叶斯分类器、演化选择的朴素贝叶斯分类器、动态局部的朴素贝叶斯分类器三种算法。在许多现实的数据挖掘应用中,排列也非常重要。因此,本文调查研究了朴素贝叶斯分类器的排列性能,并提出了一种局部克隆的朴素贝叶斯排列算法。此外,本文还调查研究了改进朴素贝叶斯分类器的一些其他方法:属性加权方法、实例加权方法、组合学习方法,提出了一种基于相似度的实例加权的朴素贝叶斯分类算法和一种基于C4.5和NB的组合分类算法。最后,探讨了新算法在若干实际问题的应用价值。本文的最主要的贡献包括:1)给出了学习扩展的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的结构扩展方法、提出了一种隐藏扩展的朴素贝叶斯分类算法(HANB)。HANB为每个属性结点产生一个隐藏的父亲结点,该结点对其儿子结点的影响为其他所有属性结点对该属性结点影响的加权平均,其中权值的大小为属性变量之间的条件相互信息。2)给出了学习选择的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的属性选择方法、提出了一种演化选择的朴素贝叶斯分类算法(ESNB)。ESNB的适应度函数为当前朴素贝叶斯分类器的分类精度。编码方式为二进制编码方式,二进制串的长度为原始属性的个数,二进制位“1”或者“0”分别代表属性被选择或没有被选择的状态,停止搜索的条件为演化的代数。3)给出了学习局部的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的局部学习方法、提出了一种动态局部的朴素贝叶斯分类算法(DLNB)。DLNB在训练实例集上利用留一交叉验证法来动态地选择一个最能拟合训练实例集的k值,一旦最佳的k值被学习到,它就可以被用来分类所有的测试实例。4)综述了排列算法的研究状况、调查了朴素贝叶斯分类器的排列性能、提出了一种局部克隆的朴素贝叶斯排列算法(LCNB)。LCNB首先运用k-近邻算法发现最接近测试实例的k个邻居,然后根据测试实例和每个邻居之间的相似度对每个邻居进行克隆,最后在增加了克隆实例后的训练实例集上构建朴素贝叶斯分类器。5)给出了学习属性加权和实例加权的朴素贝叶斯分类器的算法框架、综述了构造组合分类器的四类方法、提出了一种基于相似度的实例加权的朴素贝叶斯分类算法(IWNB-S)和一种基于C4.5和NB的组合分类算法(C4.5-NB)。6)探讨了新算法(HANB、ESNB、DLNB)在若干实际问题的应用价值。