论文部分内容阅读
PAC-Bayes边界理论融合了贝叶斯定理和随机分类器的结构风险最小化原理,为机器学习算法提供了一个理论框架,进而可以推导出最紧的泛化风险边界。该理论的有效性和正确性可由概率近似正确性理论和贝叶斯决策理论推导得到。PAC-Bayes边界是衡量机器学习算法泛化性能的重要统计量,具有严格的数学形式和一般意义。本文根据PAC-Bayes边界理论,将其运用于评价支持向量机(SVM)的泛化性能。首先,使用五个UCI数据集分别进行封闭测试和开放测试,测试得出PAC-Bayes边界和敏感性、特异性和正确率统计指标。分析PAC-Bayes边界值和对应的统计指标的协方差与相关系数,实验结果表明PAC-Bayes边界值与分类正确率具有很高的负相关性,与敏感性和特异性也具有一定的负相关性。其次,PAC-Bayes边界方法作为模型性能评价的方法,将它与N折交叉验证方法进行比较。它们的实验结果是一致的,说明PAC-Bayes边界能够较好地反映泛化风险边界。再次,将PAC-Bayes边界通过模型选择应用于SVM,实现快速优选SVM的惩罚系数和核函数参数。最后,将SVM和PAC-Bayes边界应用于蛋白质结构预测中。PAC-Bayes边界在实际应用中的主要问题是,在概念空间下估计不确定的先验分布和后验分布。本文通过使用核方法,以再生核希尔伯特空间来构造概念空间,并提出以随机采样方法和马尔科夫链蒙特卡洛采样方法来模拟概念空间的后验分布的采样,进而计算KL相对熵及PAC-Bayes边界。同时通过方差最小化方法来评价支持向量的统计显著性,以实现支持向量及其权向量的优化。在两个人工设置的数据集上进行实验,实验结果表明,该模拟方法在实际应用中是合理且有效的。在以再生核希尔伯特空间来构造概念空间的基础上,本文还提出一种融合模型反馈信息的改进马尔科夫链蒙特卡洛采样方法,来模拟对概念空间后验分布的采样。同时使用核密度估计方法对后验分布进行概率密度估计,求得后验分布与先验分布的KL相对熵,进而解决PAC-Bayes边界的计算问题。最后分别采用随机采样方法、马尔科夫链蒙特卡洛方法和改进的马尔科夫链蒙特卡洛方法进行实验,实验结果表明,该方法使得PAC-Bayes边界的计算问题得到了改进。