【摘 要】
:
高维数据的主要特征是样本量大以及维数高。正则化技术是用于处理高维数据的重要研究工具之一,其广泛应用于统计学、信号处理、机器学习和人工智能等多个领域中。稀疏正则化近年来受到了很多学者的关注,其目的是在模型的拟合效果和稀疏解之间找到一个权衡点。新技术的发展带来了更多的高维复杂的数据集,这促使人们开始考虑使用更为结构化的正则化方法。近年来,针对高维问题的结构正则化方法的研究层出不穷。将结构信息引入到回归
论文部分内容阅读
高维数据的主要特征是样本量大以及维数高。正则化技术是用于处理高维数据的重要研究工具之一,其广泛应用于统计学、信号处理、机器学习和人工智能等多个领域中。稀疏正则化近年来受到了很多学者的关注,其目的是在模型的拟合效果和稀疏解之间找到一个权衡点。新技术的发展带来了更多的高维复杂的数据集,这促使人们开始考虑使用更为结构化的正则化方法。近年来,针对高维问题的结构正则化方法的研究层出不穷。将结构信息引入到回归模型中可以提高模型的预测精度和模型可解释性。尽管对结构正则化方法的研究已经取得了令人鼓舞的进展,但仍有许多的工作留待解决。因此,本文在前人研究的基础上,对高维下的结构正则化方法的进一步研究进行了探讨。具体而言,本文的主要研究工作可以概括如下:第二章中研究了稀疏高维线性模型中带有额外的约束信息的结构正则化方法。由于非负约束较为简单且应用广泛,本文提出了非负约束下的非负分层lasso估计,可以同时实现组间和组内变量的选择,即两级选择。本文分别研究了非负分层lasso估计在低维和超高维下的理论性质。此外,本文还提出了一种快速的迭代半阈值局部线性逼近算法(IHT-LLA)来求解。最后,本文通过模拟研究以及在指数跟踪中的应用,验证了非负分层lasso方法相比于其他带有非负约束的正则化方法的优越性。第三章和第四章中主要研究了基于平方根损失的结构正则化方法。因为基于最小二乘损失的正则化方法都存在一个共同的缺点,即其正则项参数的最优值依赖于噪声水平σ,而在维数p较大时,精确估计σ与原始的估计问题一样困难。所以一些学者提出使用平方根损失函数来代替常用的二乘损失函数,基于平方根损失的正则化模型可以在不依赖于噪声水平σ的条件下实现估计的最优性。这使得平方根正则化模型在维数p较大时相比于最小二乘类方法更具吸引力,特别当p(?)n时。第三章中结合了平方根损失函数和形式如(?)2,1+(?)2的组弹性网罚项,提出了一种新的平方根正则化方法,称之为组平方根弹性网。在理论分析中,我们研究了在满足组弹性网不可表示条件下估计的正确子集恢复性质。本文同时建立了估计的慢速率界和快速率界,后者需要满足限制特征值假定。为了求解,本文提出了一种基于多元软阈值迭代选择思想的算法,并证明了算法的收敛性。模拟和实证分析都展示了新方法相对于其他方法的优越性。将平方根正则化方法应用于处理呈现分段平滑特征的信号分析时,第四章中提出了一种新的基于平方根损失的结构化平滑方法,用以同时选择组变量并实现组内的分段平滑特性。本文证明了在满足对设计阵的一些较弱的假定下,估计在既不依赖于真实的噪声水平σ,也不需要事先估计σ的前提下,就可以实现最优估计和预测。为了求解,本文提出了一种尺度调整的对偶前向后向分裂算法,并证明了算法的收敛性。最后,本文通过数值模拟以及在肿瘤数据集和灰度图上的应用验证了新模型的良好表现。
其他文献
本文从词汇和结构(含句式)两个层面考察了交流性语言的形式表征及其实时交互性。本文致力于解决两个问题:一是提出交流性语言与非交流性语言的概念,探讨二者的特征、分界标准,以及确定语言成分互动参与度等级的依据;二是对比较典型的交流性语言形式进行个案考察并分析它们的实时交互性。论文旨在通过考察具有典型性、代表性的个案,准确把握交流性语言的本质特征,厘清交流性语言和非交流性语言的差异,同时证明语言成分的互动
期待可能性理论是刑法的重要理论之一,是具有深厚人文底蕴的理论体系,反映了伦理与法律的融合,体现了刑法对人性弱点的关注和救济,当前中国刑法还未明确“期待可能性”这一概念,但在我国刑事司法实践中运用期待可能性理论概念或内涵的案件日益增多,但是近年来对期待可能性理论的研究日渐减少,有进一步针对我国司法实践对期待可能性理论进行研究的必要,并把理论研究成果转化,指导司法实践。本文围绕期待可能性理论的刑法教义
端粒是染色体末端的特殊结构,具有保护染色体和维持基因组稳定性的能力。而肿瘤细胞中端粒长度在有丝分裂过程中维持稳定,则是肿瘤细胞逃避衰老及程序性死亡并持续增殖的主要原因之一。近年来的研究证据表明,核不均一核糖核蛋白A1(heterogeneous nuclear ribonucleoprotein A1,hnRNPA1)在肿瘤细胞染色体末端中具有重要的端粒功能。除了帮助端粒酶维持端粒的有效长度外,它
函数空间上的算子理论是泛函分析一个的重要分支,它与量子力学、概率论、信息和控制论等领域都有着密切之联系.过去的数十年间,对相关函数空间上的Toeplitz算子之研究亦如雨后春笋般开枝散叶,成果颇为丰富.本文主要集中研究两个问题:第一个问题,我们主要探究的是调和Bergman空间上Toeplitz算子与调和Bergman空间正交补上对偶Toeplitz算子的亚正规性质;第二个问题,主要研究的是模型空
2013年中国提出“一带一路”倡议以来,中国与沿线国家双边贸易规模持续扩大,年均增长率高于同期中国对外贸易增速。贸易是影响就业的重要因素,就业是各国党和政府都十分关注和想要解决好的民生问题。中国对“一带一路”沿线国家的进出口贸易总额从2001年的849.036亿美元增加至2018年的12780.660亿美元,年均增长率高达18.638%。中国的总就业人数从2000年的720.85百万人增长到201
2019年,我国65岁及以上人口达到1.67亿,占总人口的12%,成为世界上老龄人口最多、人口老龄化进程最快的国家之一。人口老龄化和高龄化必将给社会带来较大负担,给政府带来较大的财政压力。事实上,按照联合国最新的人口老龄化标准,我国早在2000年就步入老龄化社会。就农村而言,农村居民老龄化程度更为显著,问题更为突出。据全国第六次人口普查数据,农村老龄人口占农村总人口的15.4%,高于全国13.26
在我国经济持续高速增长的同时,环境污染带来的诸多负面问题也日益凸显。环境污染不仅严重威胁公众的健康与安全,也成为制约我国经济与社会持续发展的“民生之患”、“民心之痛”,必须“标本兼治”、“铁腕治理”。近些年来,我国政府高度重视环境问题,从政策法规等顶层设计方面推出了一系列环境治理举措,但全国各地的环境污染治理形势仍旧严峻。因此,如何采取有效措施切实推进环境治理体系建设,是强化自然资源保护与生态环境
在能源利用效率和环境友好性方面,电动汽车比燃油汽车具有许多优势,在改善空气质量和减少碳排放中扮演着关键角色。按驱动方式的不同,电动汽车可以分为分布式驱动和集中式驱动两类。轮毂驱动电动汽车采用分布式驱动的形式,其驱动电机直接集成到车轮中,具有传输效率高、扭矩控制快速精确、易于集成各种底盘控制系统等优点,近年来吸引了越来越多的研究者的关注。然而其缺点也不容忽视,由于簧下重量的增加以及不平衡电磁力干扰,
在社会治理体系和治理能力现代化背景下,我国社会的主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。获得优质高效的公共服务是公民基本权利,也是人们所能获得的最基础的正义。映射到公共服务领域,体现出政府供给与公共服务需求失衡,政府公共财政支出效果不尽人意,公共服务供给的制度掣肘归因于政府财政资金不足及市场化进展缓慢。毋庸讳言,化解问题的基本途径是以制度创新方式扩大公共服务的实
氨硼烷具有储氢密度高、常温下为固态、物化性能稳定、无环境毒害作用和储氢-释氢便捷等特征。氨硼烷在受热情况下会发生分步热解脱氢反应产生氢气。氨硼烷易溶于水和有机醇溶液,且其水或醇溶液在催化剂的作用下发生催化水解或醇解反应生成高纯度氢气,这些优良特性使氨硼烷成为具有较大应用潜力的便携式储氢材料。本文首先通过实验和DFT计算模拟的方法研究氨硼烷(热解和水解)两种产氢方式的反应路径及产氢机制,进而结合车载