论文部分内容阅读
随着对复杂工业过程的可靠性、安全性和疾病诊断的准确性的要求日益提高,故障检测与诊断技术成为了人们关注的热点课题之一,在解决过程控制、生物医学等领域的实际问题中得到了广泛应用。一方面,过程系统集成度的提高,系统单元之间的关联度增强,对过程控制提出了更高的要求;另一方面,由于现代医学疾病的复杂性,仅凭借医师的从业经验与专业技能,容易作出与疾病本身状态偏差较大的分析,需要开发客观高效的疾病诊断方法。由于互联网和信息管理系统的快速发展,采集和存储的过程数据呈指数级增长,需要从大样本的数据中提取重要信息,建立合理的检测与诊断模型。此外,时间、成本、隐私等因素的限制了疾病数据的采集,且这些数据中包含了大量的冗余特征参数,需要为高维少样本的数据开发高性能的诊断系统。在这样的背景下,加上计算机网络、数据挖掘、模式识别等技术的快速发展,以数据为驱动、基于统计机器学习的过程监控方法和基于智能计算的疾病诊断方法应运而生,受到了研究人员的广泛关注。目前,基于数据驱动的故障检测与诊断方法在过程控制领域已经取得了许多研究成果,其中大多数方法在建模时对过程数据设定了一些假设条件,如单一运行模态、线性过程、稳定的运行状态等。然而,由于市场策略调整、产品指标变动、生产条件变更等因素,数据常常无法满足上述假设条件,导致这些监控方法难以获得理想的性能。本论文针对大样本的过程数据在实际应用中的具体问题,在统计机器学习方法的基础上,经过详细分析和系统研究,提出了一系列过程控制方法,达到了令人满意的监控效果;同时,根据疾病数据高维少样本的特点,围绕如何选择与疾病相关的重要特征开展研究,提出了智能化的诊断策略。本论文的主要研究内容概括如下。1、针对多模态的非线性过程监控问题,从概率角度分析数据,提出了一种概率核主元分析混合模型(PKPCAM)。在高维的特征空间构建概率主元混合模型,将多模态的数据刻画成多个局部主元分量;根据贝叶斯推理策略,将局部分量的后验概率与马氏距离结合,形成全局统计指标,度量样本偏离正常操作的程度。与传统的核主元分析、基于k均值聚类的次级主元分析方法不同,PKPCAM能够合理地描述多模态非线性过程特征,取得了更好的检测与诊断效果。2、针对非线性过程中的动态变化问题,提出了一种基于核独立成分分析(KICA)的模式匹配方法。在对动态的过程数据特征分析的基础上,根据滑动窗和模式匹配方法,将测试数据集与正常基准集进行匹配;在高维的独立元空间,将角度度量与距离度量融合,构建不相似度检测指标,并运用变量之间的互信息提取每个变量的贡献度。该方法在污水处理过程的仿真平台上,取得了良好的故障检测与诊断效果。3、针对复杂的过程数据中不仅存在正常操作,而且包含多种故障类型的情况,提出了一种基于局部鉴别分析(LDA)的超平面邻接距离聚类(HDNC)方法,克服了大多数传统监控方法建模时需要无污染的正常数据的缺陷。通过HDNC方法将无类标的多种故障类型从正常操作中分离,并结合LDA算法,提取了故障数据本身的鉴别信息,描述了紧凑的数据聚类结构。利用田纳西-伊斯曼和污水处理的仿真实验,证明了该方法能够实现对复杂化工过程的有效检测与分类。4、针对多阶段的间歇过程,对过程数据进行批次方向的展开后,提出了一种基于全局局部鉴别分析(GLDA)的高斯过程回归(GPR)模型。借助于隐马尔科夫模型的随机推理能力,识别出间歇过程的不同阶段;在建立回归模型前,GLDA算法提取了与质量输出高度相关的过程变量,消除了冗余变量,减轻了回归模型的复杂度;在不同的阶段内建立各自的局部GPR模型,在线应用时选择最匹配的局部GPR模型进行质量预测。通过青霉素发酵过程的仿真平台,验证了该方法在多阶段的间歇过程中的有效性。5、针对高维少样本的疾病数据问题,提出了一种基于遗传算法(GA)的特征选择方法。通过GA对样本空间的优化搜索,无需所选特征数的先验知识,选择了最优的特征子集;该特征子集不仅能够描述不同类别数据之间的鉴别信息,考虑了特征之间的冗余程度,而且并不依赖具体的分类器。在标准的肺癌数据仿真实验中,利用三种不同的分类器,与常用的特征选择方法、全体特征集进行比较,证明了所提特征选择方法具有更好的分类表现。