论文部分内容阅读
神经网络(Neural Network,NN)和支持向量机(Support Vector Machine,SVM)是当前机器学习的重要的研究领域,是智能信息处理和机器学习研究领域的重要组成部分,在模式识别和回归估计领域得到广泛的应用。目前,国内外学者对神经网络、统计学习理论及支持向量机方法的讨论和研究非常活跃。在神经网络、支持向量机的理论研究以及融入模糊逻辑的智能信息处理方法的研究发展很快。但是,在理论方法以及实际应用中还存在许多有待研究的新问题,如异常数据检测、提高学习速度、提升推广性能、模型选择、增强学习过程的健壮性等。
本文在前人研究成果及前期工作基础上,对模糊反向传播(Fuzzy BackPropagation,FBP)学习算法、大规模训练样本集的ε-支持向量回归(ε-SupportVector Regression,ε-SVR)方法、支持向量回归中异常数据剔除方法以及基于后验概率加权隶属度的模糊支持向量机(Fuzzy Support Vector Machine,FSVM)等若干问题进行了较系统的研究,旨在丰富和发展模糊神经网络和支持向量机的理论和应用研究。主要成果如下:
(1)证明了基于极大-极小模糊算子与S.Stoeva提出的基于神经元输入指标集幂集的模糊神经网络正向计算过程的等价性,进而研究了基于极大-极小模糊算子的网络权值修正方法,提出了改进的FBP学习算法。该算法通过每个神经元的输出与相应输入权值的比较进行权值修正,克服了一般的FBP在权值修正上仅依据网络输出与所有连接权值进行比较的不足,使权值修正更加精确,网络学习更加稳定。通过在汽轮发电机组状态监测中的应用表明提出的算法是有效的。
(2)为克服已有搜索算法在求解ε-SVR时存在选择样本开销大、效率不高以及收敛约束检测代价大的缺陷,研究了ε-SVR支持向量分布的特性。根据分布特性确定潜在支持向量区域以缩减搜索样本规模,进而提出了大规模训练样本集的ε-SVR改进逐步搜索算法。即从大规模训练样本集中抽取的小样本集的ε-SVR超平面出发,计算大训练样本集中样本点距这个近似的超平面的距离d,剔除大训练样本集中在ε≤d≤dmax外的训练样本点,然后逐步搜索支持向量,建立大训练样本集的ε-SVR。在对ε-SVR改进搜索算法的有效性分析中,发现ε-SVR的解稀疏性对算法时间复杂度有较大的影响。为了确保算法有效性,将支持向量稀疏过程引入搜索算法,以较低的精度损失代价换取算法的高效,进一步提出了大规模训练样本集的ε-SVR稀疏搜索算法。
利用给定已知函数生成样本数据进行仿真实验,结果表明本文所提ε-SVR改进逐步搜索算法和ε-SVR稀疏搜索算法用SMO或Matlab工具箱求解ε-SVR的速度比改进前要快3.9倍,并且随ε的值和样本数增加算法计算效率增高。因此,研究获得的新的ε-SVR算法可用于解决大规模样本回归问题。
(3)在研究回归问题中理论映射模式与回归估计模式两者关系的基础上,定义了回归问题中异常数据及其不满足回归映射关系差异程度的度量,给出并证明了回归问题中异常数据的若干性质,进而提出回归问题中剔除异常数据的逐步逼近定理。然后,提出了以逐步逼近定理为理论依据支持向量回归中异常数据的剔除算法,并在理论上分析了其收敛性和有效性。
针对大规模样本的支持向量回归中异常数据剔除问题,引入逐步搜索算法对支持向量回归中异常数据的剔除算法进行改进,提出了基于大规模样本集的支持向量回归异常数据剔除算法。理论分析显示改进算法也是收敛的和有效的。
利用给定已知函数生成样本和UCI机器学习数据库样本数据进行仿真实验,结果显示有较高的异常数据剔除精度,提高了最终SVR模型精度。
(4)为减小异常点及噪声数据对分类超平面的影响,研究了模糊支持向量机中样本隶属度函数的构造方法。借鉴贝叶斯决策理论和样本密度的思想,依据不同性质样本点在样本集中的相对位置分布,引入样本点的后验概率和样本点密度,提出了基于后验概率加权的隶属度函数构造方法,进而构建基于后验概率加权隶属度的FSVM。
利用双螺旋线和UCI机器学习数据库数据进行仿真实验,结果显示提出的后验概率加权隶属度的FSVM具有较好的数据分类性能。
最后,对全文研究工作进行了总结,对模糊神经网络和支持向量机学习算法的进一步研究和应用进行了展望。