交叉验证方法在核偏最小二乘模型中的应用

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:asdf07124029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多学科中,如生物医学、食品科学、地球科学、分析化学等,由于大量现代化仪器(核磁共振仪、高通量光谱仪等)的使用,会生成海量的数据,这些数据隐藏大量的有用信息,通过对这些数据的定量或定性分析,有助于发现广泛且深入的相应科学结论。数据的定量或定性分析在统计学习中统称为监督学习(比如分类或回归)。这些方法通常需要执行以下两个任务:(a)选择学习算法的最佳组合并调整它们的超参数,也称为模型选择;(b)提供最终报告模型的性能估计。常用于选择最优模型(超参数)和模型性能评估的方法有:自助法(Bootstrap)、剃刀法(Jackknife)、交叉验证(Cross-validation),这些方法各有优缺点,如交叉验证在估计真实误差时存在乐观偏差,即低估真实误差。很多学者已经注意到这个问题并提出不同的修正方法,如嵌套交叉验证(Nested cross-validation),它可以提供较为良好的估计,但是计算开销庞大;为了减少计算开销,Tibshirani父子提出一种TT方法,由于TT方法简单、直观受到很多学者的关注,部分学者认为TT方法过度高估真实误差。基于此,本文基于TT方法提出两种改进办法:基于二分之一TTBias的改进方法和基于中位数改进的TT方法。本文将所提出来的两种TT改进方法以及TT方法应用于偏最小二乘模型与核偏最小二乘模型在高维数据中的建模实验,通过模拟数据和真实数据集的经验结果,表明本文所提出的两种新方法不仅修正了交叉验证估计的乐观偏差,而且避免了TT方法的过大结果,从而说明本文所提的方法是较好的。
其他文献
目的:高粱中淀粉含量与其衍生物的品质密切相关,对其中直链淀粉(Am)和支链淀粉(Ap)含量的测定很有必要。本文采用碘比色法对高粱籽粒中淀粉(Am、Ap)含量的进行测定,探讨最佳预处理与检测方法。方法:以高粱籽粒中的Am与Ap为主要研究对象,比较碘比色法中的三种检测方法,即:单波长混标法(I)、双波长单标法(II)及双波长混标法(III),通过精密度、检出限、定量限等对三种测定方法进行了一系列的方法
2021年2月27日,国际版抖音视频服务(TikTok)宣布,将在美国进行价值9200万美元的赔偿。该条新闻引起了国人的关注。因为抖音视频网站是国内知名的短视频网站,大家都好奇是什么原因引起了此次天价赔偿案。该诉讼是指控这家视频分享应用服务商在未经同意的情况下,从用户那里获取个人数据,包括使用面部识别技术的信息,并与第三方共享数据。该事件将隐私权,尤其是未成年人隐私权问题再次摆到了国人面前,也揭开
淀粉含量的测定方法多种多样,但是关于甘薯淀粉的测定方法,目前尚无统一标准。本研究通过对甘薯干基获得方式,淀粉水解方式以及还原糖测定方式三个主要因素对甘薯淀粉含量测定结果的影响进行探究。实验发现,冷冻干燥样品测定的淀粉质量分数比高温干燥样品显著高出38.43%,酸水解方式比酶水解显著高出6.51%。还原糖测定方法中,DNS1和DNS2测定方法分别比斐林试剂滴定法显著高出29.67%和9.47%,DN
"健康中国2030"计划纲要中指出:健康不仅仅是身体方面的健康,包括身体健康与心理健康两个方面。青少年是儿童成长时期转变为成年人的过渡期,在注重青少年身体健康发展过程中的同时,更应该加强对青少年心理健康成长方面的关注。体能、心理是运动训练的重要组成部分,在体能训练的过程中包含了心理训练,心理训练的过程中囊括了体能训练,二者相互依存相互促进。所以,在体能训练过程中及时发现青少年体育心理问题,做好青少
卵巢生殖细胞肿瘤(OGCT)是第二大常见的卵巢肿瘤,其中5%为恶性OGCT(MOGCT)。OGCT主要发生于15~39岁女性,发病高峰年龄为16~20岁,患者多面临肿瘤规范化治疗和保留生育功能的双重需求,临床诊治需慎重。大多数MOGCT患者可通过保留生育功能的手术或手术联合化疗达到治愈,10%~20%的患者复发,复发后仍可以通过化疗挽救。OGCT的发生机制、组织学类型及临床诊疗比较复杂,具有较大的
基于文献计量学方法,利用VOSviewer、CiteSpace V等软件,对Web of Science(WoS)核心合集收录的10643篇文献及中国知网(CNKI)收录的核心期刊中的5 576篇碳排放权交易相关文献进行计量分析与对比,探索该领域研究现状及发展趋势。结果表明,我国在该领域的研究能力不断提升;在该领域国家之间的合作研究呈现实力不均衡特征,我国研究机构与美英研究机构合作较为紧密;与国际
为了减少轴向磁场磁通切换永磁电机(axial field flux-switching permanent magnet machine,AFFSPMM)的转矩和定子磁链脉动,提出一种磁链矢量跟踪误差最小化的双矢量合成模型预测磁链控制(two-vector synthetic model predictive flux control,TVS-MPFC)方法。首先,为了消除传统模型预测转矩控制(m
在企业人力资源管理过程中合理应用组织行为学,不仅有助于人力资源管理人员合理分析人力资源架构中内在各种行为,还能促进其对企业人力资源进行最优化配置,一方面能提高企业人力资源管理质量和效率;另一方面也能推动企业获得更好的发展和实现企业发展目标要求。但是,当前仍有不少企业人力资源管理人员并不了解组织行为学,也未能良好地应用组织行为学开展人力资源管理工作。基于此,文章首先简述了人力资源管理与组织行为学的定