稳健回归与度量学习方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:wwjms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习与模式识别的诸多任务中,如何真实而有效地度量两个数据样本之间的相似程度是一个极其重要的问题,并极大影响着后续识别任务的准确程度。一方面,这是因为在真实数据中,样本通常会受到噪声的干扰,欧式距离等度量方式容易受到噪声的干扰而不能如实地度量出样本间的相似性;另一方面,对于监督学习任务而言,测试阶段的数据可能会与训练阶段数据差异巨大,如果不能建立一个泛化能力良好的样本间距离度量方式,就不能在最终的测试任务上取得令人满意的性能指标。针对以上两个方面的问题,本文主要从“对噪声不敏感”和“提升泛化性能”两个角度来对现有距离度量方法作出改进与推广。首先,本文提出了两种稳健距离,并将之应用在回归模型中,建立了对噪声数据不敏感的稳健回归模型;此外,本文从参数学习角度进行建模,针对现有的距离度量学习模型在泛化能力上存在的不足进行改进,提出了三种新颖的距离度量学习模型。本文的主要成果概括如下:1.针对图像分类中的结构噪声(如遮挡、光照变化等)问题,本文提出了一种低秩隐模式逼近模型,通过直接求解参照样本与测试样本的重构样本作为隐模式,来移除结构噪声。我们使用Frobenius范数来刻画隐模式矩阵与参照样本的距离,并使用核范数来刻画隐模式与测试样本的距离,进而得到能够对测试样本中噪声稳健的距离度量。我们进一步将距离模型扩展为一种回归形式,用于刻画样本到类别的距离,并使用改进后的交替方向乘子法来求解回归系数和隐模式矩阵。多个数据集上的实验验证了,与最新的一些基于重建的回归模型相比,该方法在处理带有结构噪声的识别问题时具有一定的优势。2.考虑到现有的基于l0-范数的距离度量一方面忽略了结构噪声的相关性,另一方面它们大多采用近似的迭代求解方法,而无法高效地求取一个精确解。本文首先对l0-范数进行了推广,将该范数中对非零元素的计数泛化为非零邻域的计数,提出了一种新颖的δ-范数,进而能够刻画具有结构性的图像噪声。本文使用核方法构造了能够在核空间内无限逼近δ-范数的核函数,并在具体的回归模型上进行应用,进而得到了高效的闭式解,在测试阶段仅需要进行矩阵投影运算。在多个图像数据库上的识别和重构实验表明,该方法能够在具备速度优势的情况下,达到比现有稳健回归模型更准确的识别性能和重构效果。3.现有的距离度量学习模型仅能利用给定的原始数据进行训练,难以在差异较大的测试数据上取得稳定的泛化性能。针对该问题,本文提出了对抗度量学习模型,通过产生对抗数据来弥补训练数据与测试数据之间的差异。该模型分为两个阶段,在混淆阶段,模型自动产生具有歧义但对于学习算法十分关键的对抗数据,然后在区分阶段将对抗数据连同原始数据一同用于训练得到一个稳健的距离度量,进而提高了度量学习模型的鉴别能力。我们在人工数据实验以及分类和匹配等任务上验证了提出的对抗度量学习模型的优越性。4.针对线性距离度量(即马氏距离)拟合能力欠佳的问题,本文提出了一种数据自适应的度量学习模型,将以往度量学习中的单个投影矩阵推广为多个投影矩阵的线性组合,并为每个数据对设定相应的表示系数来对投影矩阵进行选择,进而达到数据自适应的目的。我们的方法被形式化为一个联合学习投影矩阵与稀疏表示系数的最优化模型。我们随后将模型扩展为核化版本,进一步提升了模型的非线性拟合能力,并提供了相应的迭代阈值收缩算法对模型进行求解。该方法在图像检索、模式分类、图像匹配等任务上取得了具有优势的识别性能。5.针对传统度量学习无法自适应的捕获数据的几何形状这一问题,本文提出了曲线距离度量学习。首先我们经过数学推导发现传统线性度量学习等价于计算样本对在测量线上的累计弧长值。由于直线测量线无法刻画空间曲面的曲线距离,本文提出将以往的直线测量线改进为一般的曲线形式,进而能够自适应地学习数据的几何形状。基于Weierstrass定理,我们将曲线的学习过程转化为一个关于三阶张量的最优化模型,并设计了相应的随机优化方法进行求解。本文进一步通过理论证明了这一泛化模型的拟合能力、误差上界、以及拓扑学性质,保证了模型的合理性和可靠性。该方法在合成数据和真实数据的分类、匹配、检索等任务上达到了优异的识别性能。
其他文献
随着现代防空反导防御体系逐渐体现出网络化、层次化的发展特点,单枚导弹突防面临着越来越多的挑战,难以发挥理想的打击效能。在此背景下,多导弹协同作战由于其要求各导弹同时命中目标、能在短时间内对目标进行高密度的饱和攻击、突防能力强、毁伤概率高,近年来逐渐成为国内外制导研究的热点。多导弹分布式协同制导律是关系导弹飞行和实现多导弹协同作战的关键,其设计不仅要依据导弹自身性能,还必须要考虑弹间通信因素的影响。
对于具有高可靠、长寿命特征的弹药,传统的寿命及可靠性评估主要依赖于加速寿命试验,但是随着我国制造水平的日益提升以及更多新材料、新技术被用于弹药系统中,在短时间内很难得到足够的加速寿命数据用于常应力条件下的弹药贮存寿命评估,因此基于退化数据或加速退化数据建立退化模型成为可靠性和寿命评估领域的趋势。Wiener过程模型是一种随机过程模型,既可以用于具有单调退化特征的产品,又适用于非单调退化的情形,且具
支持向量机的思想最早出现在前苏联学者Vladimir N.Vapnik和Alexander Y.Lerner1963年发表的研究论文。经过几十年众多学者的努力,支持向量机已经成为机器学习、数据挖掘和模式识别领域中的一种经典算法。随着机器学习研究的发展,支持向量机也从最初的二分类问题、回归问题扩展到其他机器学习课题,如:特征选择、半监督、顶序学习、有序回归、异常值检测、多视角学习等。在这些新课题中,
车辆振动对车辆运输的负载有着至关重要的影响,其中需要重点考虑驾驶员和乘客的乘车舒适性。汽车主动悬架与其它悬架相比,不仅充分保证了汽车的稳定性,同时还改善了悬架的各项性能。主动悬架的优势是可以为执行部件提供灵活的控制,如果缺少这种灵活性,主动悬架就无法由各种行驶状态调整到最佳状态。在设计控制器时,受不同路况下车辆安全限度的约束,主动悬架系统性能优势无法充分发挥。因此,为了克服上述主动系统的缺点,达到
固体燃料冲压发动机(Solid Fuel Ramjet,SFRJ)具有结构简单、可靠性高、比冲高、成本低等优点,且自身带有固体燃料,存储运输安全,可以用作超音速飞行的各种导弹以及炮弹的动力装置。但是,固体燃料冲压发动机的工作性能较为复杂,还需要对固体燃料冲压发动机进行更广泛的基础研究工作,如火焰稳定性差,容易熄火,金属颗粒的燃烧效率低等,这些问题极大地阻碍了固体燃料冲压发动机的工程应用。本文对铝镁
现代战场上,高速导弹、智能弹药等精确制导空中目标呈现出速度更快、机动性更强、可探测概率更小的发展趋势,给国土防空系统带来巨大压力。在对抗机动目标方面,车载防空武器具有反应迅速、火力转移快、效费比高等优点,能够在现代防空体系中发挥重要作用;在远程精确打击方面,车载多管火箭炮等射程越来越远,精度越来越高,可配备高爆弹、燃烧弹、子母弹等,能够承担对地面要害目标的远程压制任务。这对车载武器伺服系统的快速性
随着巡航导弹、战斗机、武装直升机等武器的突防技术不断升级,对这些目标的探测和跟踪已成为近程防空的主要难点。为解决这一问题,基于“网络中心战”思想构建网络化近程防空探测系统,使得各作战单元可以共享空情信息、实现协同作战,已经成为未来的发展方向。受国情限制,我军现役防空装备中依然存在较多在“平台中心战”思想下研制的老装备,现阶段构建网络化近程防空探测系统仍要利用这些装备。然而,在现行的时间触发通信机制
由于许多实际系统都可以用时滞马尔可夫跳变模型表示,因此,时滞马尔可夫跳变系统的研究得到了国内外学者的广泛关注,也取得了丰硕的研究成果。然而,在具有外部扰动输入的情形下,时滞马尔可夫跳变系统的耗散滤波与控制问题需要进一步的深入研究。本文在已有文献的基础上,利用Lyapunov-Krasovskii泛函理论、矩阵不等式以及时滞分割技术,研究了时滞马尔可夫跳变系统的耗散滤波与控制问题。主要研究工作如下:
广义系统是一类比传统状态空间系统更具一般性的动力学系统,能更好地描述实际系统。网络化控制系统是随着网络通信技术、计算机技术和自动控制技术的迅速发展而出现的一类新型控制系统,由于其具有重要的实际应用背景而被广泛关注。网络化广义系统是被控对象为广义系统的网络化控制系统,对于网络化广义系统的研究具有重要的理论意义和应用价值。本文将研究在事件驱动机制下网络化广义系统的分析与综合问题,旨在探索基于事件驱动的
在临床医学中,组织中的血流分布图像可以辅助疾病诊断。X射线计算机断层扫描(X-ray computed tomography,X-CT)、核磁共振(Magnetic resonance imaging,MRI)等常规成像方法的分辨率无法达到毛细血管精度。目前可行的高分辨活体微血流成像方式包括荧光共聚焦显微镜(Confocal fluorescence microscopy,CFM)和光学相干层析术