论文部分内容阅读
联用仪器在分析化学中的广泛应用,使得二维矩阵或三维张量形式的多变量数据大量产生。这些数据既包含分析对象丰富的化学信息,又累积较多的噪声和背景信息,如基线漂移、绝热脉动等。主因子数,也叫双线性矩阵的“化学秩”。主因子数的估计能够帮助去除噪声和冗余,提取出数据中的最大化学信息,便于对数据进一步定性和定量分析。大多数主因子数估计方法是基于主成分分析,即对数据矩阵的特征值或特征向量进行分析以区分主要因子和次要因子,但在某些情况下仅仅通过分析原始数据的特征值或特征向量并不能得到理想结果。比较不同方法得到的特征值或特征向量,或比较原始和重构数据的特征值或特征向量,即特征值或特征向量的相对分析,能够为解析更复杂的数据提供新思路。基于原始和重构数据的特征向量的比较以估计主因子数这一研究思路,本文从以下五方面展开具体工作:1.提出一种针对双线性数据的主因子数估计方法OPALS,即首先通过正交投影法(OPA)选取关键变量,结合最小二乘法构造新数据矩阵,然后对原始和新数据矩阵分别作奇异值分解(SVD),得到两组不同的特征向量,最后用一致性系数函数判别主因子数。2.用模拟数据研究OPALS方法的性能:选取三组分的GC-IR数据作为模拟数据,从浓度分布重叠程度、组分微量程度和噪声水平三个方面评价方法的各种抗干扰能力,并与NPFPCA、RESO、DRAUG和DRMAD四种常用方法作比较,观察不同方法在抵抗干扰能力方面的差异。3.用实验数据研究OPALS方法的性能:选取六组不同组分数的HPLC-DAD数据作为实验数据,以窗口因子分析方法(WFA)的结果作为参考值,观察主因子数估计结果与参考值的一致程度,同时将OPALS方法的估计结果与NPFPCA、RESO、DRAUG和DRMAD四种方法的估计值作比较,观察不同方法在实际数据中结果准确性的差异。4.改进OPALS方法的选取关键变量方式:由于OPALS方法过程中涉及关键变量的选取,而选取的关变量键数是一个参数,这增加了方法的运行负担,同时致使判断过程存在一定的主观性,因此改进工作之一是寻找新的选取关键变量方式以使结果更客观。本文中分别采取易用迭代自模式混合物分析法(SIMPLISMALS)和指针搜索法(needle search, NS)用于替代正交投影法。5.改进OPALS方法的主因子数判别函数:不同判别函数对主因子数估计结果也有一定程度影响,因此分别选取子空间差异函数和子空间投影技术替换一致性系数,观察估计方法在模拟数据中的抗干扰能力和在实际数据中结果的准确性。