论文部分内容阅读
各类数据的积累和快速增长给数据分析带来巨大的挑战。作为数据分析的核心技术,机器学习从已有数据中提取规则或知识,从而在未知情境下为人类提供决策依据。我们希望机器学习模型能够较好地匹配数据,然而模型的适应性远远不及数据的复杂性。任何模型都无法确保完全匹配各种数据,这种不完全匹配关系往往通过误差体现出来。如何合理有效地利用误差是机器学习领域持续研究了数十年的问题,期间出现了很多经典的基于误差的学习算法或技术,如误差反向传播算法、AdaBoost、自步学习等,这些工作推动了机器学习的发展,充分展示了误差所蕴含的宝贵价值。关于误差的学习方法研究是机器学习中很多学习问题的共性话题,也是一个有生命力、具有开放性且大有可为的方向。统计学是研究一定规模数据的主流工具之一,大数据分析面临的困难更加凸显了统计学的重要性。因此,利用统计学方法研究误差的特性,进而提升数据分析效果是一个自然的思路。本文主要围绕机器学习中的三种误差——训练误差、测试误差和漂移误差,从数据质量提升和模型/参数优化两个层面开展系统深入的研究。在数据层面,给出时差序列数据的相关性分析和距离度量方法;提出分类与回归通用的噪声过滤算法。在模型层面,完善了交叉验证(cross-validation,CV)的误差估计理论;提出面向特定类型数据的准确、稳定、高效的CV方法;提出面向适定学习问题的超参数优化方法。本文的主要研究工作概括如下:(1)提出适用于时差序列数据的相关性分析、曲线排齐和距离度量方法。时差的存在可能导致序列相关性产生误判或者距离度量出现偏差,进而干扰或误导序列数据分析。本文通过研究时差序列相关系数的统计特征,提出伪相关的识别方法和时差序列相关性判定方法;为消除时差,提出一种适用面更广的曲线排齐优化准则,并给出高效的优化问题求解方法;提出的最大平移相关距离可以度量具有相位和振幅漂移的时差序列之间的距离。这些方法可以有效排除时差对序列数据分析的干扰,为更深层次的序列分析做好了准备。(2)建立了监督学习的弹性噪声过滤体系。从概率角度给出基于模型预测的噪声过滤方法的前提假设及其有效性原理,解释了典型过滤器之间的联系;证明了置信区间内误差的低噪性,阐述了噪声与误差之间的联系;进而提出区间不敏感过滤算法,算法具有宽松的假设,而且其有效性得到合理解释。这些工作不仅完善了已有方法的理论基础,而且算法的核心概念——区间不敏感误差可为相关的误差学习方法提供新的视角和思路。(3)给出了误差估计的准确性与稳定性的关系,并从理论上找出了CV中影响误差估计的关键因素。利用测试误差的方差分析技术给出CV估计的准确性与稳定性的度量方式,证明了两者之间的量化关系,从而为通过减小方差来提升准确度提供理论指导;同时给出CV方差与相关变量之间的关系,作为调整CV方差的策略依据;在分类问题上的结果能够从理论上解释一些经典的实验结果,并针对分类和回归问题提出一种统一的标准化方差,它可作为一个稳定的误差度量。这部分工作为提高误差估计的准确性和稳定性提供了理论指导,对模型选择具有重要意义。(4)针对序列数据的自相关性特征提出Markov交叉验证方法(M-CV)以更好地估计模型误差。序列的周期性、重复性或相关性会导致时序模型误差估计产生偏差,本文给出相应的三个CV准则;并提出一种Markov交叉验证方法,其序列划分方法可以确保每个子集内的样本保持一定距离,可避免过拟合或序列信息损失的问题(可能导致误差的低估或高估);此外从理论上证明了M-CV误差估计具有低方差性,从而确保M-CV的稳定性,实验结果也表明M-CV比其它CV具有更低的偏差、方差以及时间成本。(5)提出基于训练误差的最小对称相似准则来解决超参数优化问题。常规的网格搜索交叉验证方法过程复杂且有一定的随机性,本文用训练误差之间的相似性来解决参数优化问题。提出一种基于训练结果的方向相似度,来度量模型泛化误差的相似度;在此基础上证明了对称方向相似度在最佳参数处取得最小值;提出了最小对称相似准则(MSSC),可用于五类学习任务的超参数优化,其时间复杂度低于CV且结果具有唯一性。所提出的方向相似度为训练结果和预测误差建立了桥梁,使得从训练结果角度研究泛化能力成为可能。本文通过数据与模型之间的误差统计特性分析,在数据质量提升和模型/参数优化方面开展研究,取得的研究成果完善和拓展了误差学习的理论与应用范围,为复杂数据的分析提供了有效的方法,具有重要的理论意义和应用价值。