基于误差统计特性分析的优化建模方法

来源 :山西大学 | 被引量 : 2次 | 上传用户:liu8423824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各类数据的积累和快速增长给数据分析带来巨大的挑战。作为数据分析的核心技术,机器学习从已有数据中提取规则或知识,从而在未知情境下为人类提供决策依据。我们希望机器学习模型能够较好地匹配数据,然而模型的适应性远远不及数据的复杂性。任何模型都无法确保完全匹配各种数据,这种不完全匹配关系往往通过误差体现出来。如何合理有效地利用误差是机器学习领域持续研究了数十年的问题,期间出现了很多经典的基于误差的学习算法或技术,如误差反向传播算法、AdaBoost、自步学习等,这些工作推动了机器学习的发展,充分展示了误差所蕴含的宝贵价值。关于误差的学习方法研究是机器学习中很多学习问题的共性话题,也是一个有生命力、具有开放性且大有可为的方向。统计学是研究一定规模数据的主流工具之一,大数据分析面临的困难更加凸显了统计学的重要性。因此,利用统计学方法研究误差的特性,进而提升数据分析效果是一个自然的思路。本文主要围绕机器学习中的三种误差——训练误差、测试误差和漂移误差,从数据质量提升和模型/参数优化两个层面开展系统深入的研究。在数据层面,给出时差序列数据的相关性分析和距离度量方法;提出分类与回归通用的噪声过滤算法。在模型层面,完善了交叉验证(cross-validation,CV)的误差估计理论;提出面向特定类型数据的准确、稳定、高效的CV方法;提出面向适定学习问题的超参数优化方法。本文的主要研究工作概括如下:(1)提出适用于时差序列数据的相关性分析、曲线排齐和距离度量方法。时差的存在可能导致序列相关性产生误判或者距离度量出现偏差,进而干扰或误导序列数据分析。本文通过研究时差序列相关系数的统计特征,提出伪相关的识别方法和时差序列相关性判定方法;为消除时差,提出一种适用面更广的曲线排齐优化准则,并给出高效的优化问题求解方法;提出的最大平移相关距离可以度量具有相位和振幅漂移的时差序列之间的距离。这些方法可以有效排除时差对序列数据分析的干扰,为更深层次的序列分析做好了准备。(2)建立了监督学习的弹性噪声过滤体系。从概率角度给出基于模型预测的噪声过滤方法的前提假设及其有效性原理,解释了典型过滤器之间的联系;证明了置信区间内误差的低噪性,阐述了噪声与误差之间的联系;进而提出区间不敏感过滤算法,算法具有宽松的假设,而且其有效性得到合理解释。这些工作不仅完善了已有方法的理论基础,而且算法的核心概念——区间不敏感误差可为相关的误差学习方法提供新的视角和思路。(3)给出了误差估计的准确性与稳定性的关系,并从理论上找出了CV中影响误差估计的关键因素。利用测试误差的方差分析技术给出CV估计的准确性与稳定性的度量方式,证明了两者之间的量化关系,从而为通过减小方差来提升准确度提供理论指导;同时给出CV方差与相关变量之间的关系,作为调整CV方差的策略依据;在分类问题上的结果能够从理论上解释一些经典的实验结果,并针对分类和回归问题提出一种统一的标准化方差,它可作为一个稳定的误差度量。这部分工作为提高误差估计的准确性和稳定性提供了理论指导,对模型选择具有重要意义。(4)针对序列数据的自相关性特征提出Markov交叉验证方法(M-CV)以更好地估计模型误差。序列的周期性、重复性或相关性会导致时序模型误差估计产生偏差,本文给出相应的三个CV准则;并提出一种Markov交叉验证方法,其序列划分方法可以确保每个子集内的样本保持一定距离,可避免过拟合或序列信息损失的问题(可能导致误差的低估或高估);此外从理论上证明了M-CV误差估计具有低方差性,从而确保M-CV的稳定性,实验结果也表明M-CV比其它CV具有更低的偏差、方差以及时间成本。(5)提出基于训练误差的最小对称相似准则来解决超参数优化问题。常规的网格搜索交叉验证方法过程复杂且有一定的随机性,本文用训练误差之间的相似性来解决参数优化问题。提出一种基于训练结果的方向相似度,来度量模型泛化误差的相似度;在此基础上证明了对称方向相似度在最佳参数处取得最小值;提出了最小对称相似准则(MSSC),可用于五类学习任务的超参数优化,其时间复杂度低于CV且结果具有唯一性。所提出的方向相似度为训练结果和预测误差建立了桥梁,使得从训练结果角度研究泛化能力成为可能。本文通过数据与模型之间的误差统计特性分析,在数据质量提升和模型/参数优化方面开展研究,取得的研究成果完善和拓展了误差学习的理论与应用范围,为复杂数据的分析提供了有效的方法,具有重要的理论意义和应用价值。
其他文献
本文主要研究各向异性扩散问题的多边形/多面体上的节点型保正有限体积格式.首先,我们构造了扩散问题的一种任意多边形上的非线性节点型保正格式.该格式以节点未知量为主未知
六溴环十二烷(Hexabromocyclododecane, HBCD)是一种添加型溴代阻燃剂,广泛应用于住宅或工业保温层、家用电器及纺织物涂层等。随着HBCD使用量增加,其环境问题也逐渐凸显出来
目的探讨健康教育护理门诊在骨科门诊中的角色作用。方法对100例门诊治疗的骨折病人在骨科护理门诊进行规范的、个性化的健康教育并发放调查问卷。结论骨科健康教育护理门诊
氯诺昔康(LNXC)是一种新型的非甾体抗炎镇痛药,与其它昔康类药物不同,它经口服或静脉给药吸收迅速,血浆生物半衰期较短,多次给药没有蓄积性,能够最大限度地降低人体的不良反应,
H.266/通用视频编码(Versatile Video Coding,VVC)响应时代需求被提上制定日程,预计2020年发布,其目标是与高效视频编码标准(High Efficiency Video Coding,HEVC)相比,在保持视频质量一致的前提下使编码码率下降50%。到目前为止,H.266/VVC已经获得较大程度的性能提升,一方面得益于该标准采用了许多新技术,比如三叉树划分,亮度和色度分
醛酮还原酶(Aldo-Keto Reductase, AKR)是一个能够还原醛酮基化合物的蛋白质家族。许多AKR成员具有高度的氨基酸序列同源性和相似的空间结构,而且其酶促反应共享一些底物。虽
目的通过回顾性分析创伤输血患者临床病例资料,分析创伤输血患者红细胞输注的独立影响因素,以建立大量输血预测评分方案并评价其临床预测性能。方法收集南昌大学第一附属医院
农村土地承包经营权制度是我国特有的土地制度,该制度对于我国农村地区的长期稳定发展意义重大。2007年1月至2月,中国海洋大学"中国农村土地承包经营权研究项目组"进行了关于
城市内的文化遗产点,从保护的角度需要在保护范围内相对封闭,以控制保持原貌,但是每一个文化遗产点,又都是城市的文化吸引点,吸引大量城市活动的同时,也产生一些城市问题。在
设计了1MJ超导储能系统低温杜瓦恒压和零挥发控制系统,完成了1MJ超导储能系统低温杜瓦的在线测控原理设计、组织结构、功能实现及在线测控系统的硬件集成和软件编写等工作,软