复杂数据统计过程控制的若干研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:fulinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计过程控制(Statistical Process Control)是应用统计方法对过程中的各个阶段进行监控,从而达到改进与保证质量的目的.近些年来,由于高性能计算机科技的发展,现代统计数据的收集,分析,推断决策方法逐渐体现出两个特点:一是灵活性;二是利用计算机进行复杂计算获取最大化信息.作为工业统计的重要研究领域的统计过程控制方向更是显著地表现出这两个特点.尽管统计过程控制经过了五十年的发展,形成了一套特有的研究方法,技术和评价体系,但是得益于高速计算和大规模数据的储存,一些十几年前不能够实现的模型筛选,自由化建模,模式识别刻画以及变化(异常点)探查等统计方法如今可以有效快速地实施;随着工业领域自动化的高灵敏度传感器等设备的普及应用,在线大量数据快速收集得以实现,对统计方法的灵活性和有效性提出了更高的挑战.当今的工业生产中的很多问题都涉及到大规模复杂数据的分析以及由此所带来的质量改进与对生产制造过程的更好的理解,传统的基于简单正态数据所开发出来的各种技术方法不能够很好地处理当前这些问题,现在的统计过程控制研究趋势正是要与时俱进地适应这些发展和变化,更好地利用现代的科技资源处理复杂数据问题。   本论文正是在这样的背景下,在如下一些重要的前沿问题上展开研究:profile数据过程的监控和诊断;非参数控制图:相关数据的动态控制图;监测drift飘移的控制图;多元过程控制;多阶段过程的检测和诊断.本文引入并开发各种新的统计技术,紧密结合计算算法,解决这些当前质量控制领域研究的重点难点问题。下面我们依次简要介绍,   许多应用中,我们所关心的产品质量已经不是简单的某个或某几个指标的均值或方差(或分布),而是需要用一些自变量和响应之间的某种关系来更好地刻画或衡量.也就是说,在固定的抽样点上,我们所得到的观测值可以看作是一些变量的回归曲线,这样的问题我们称之为profile数据问题,如何使用统计过程控制方法对这样的生产过程进行监控,就是profile数据的质量控制问题.该问题是最近统计过程控制中非常重要的热点研究问题.大量的学者和质量控制专家都在从事该方面的研究,目前几乎所有的profile数据过程控制方法都假设参数模型,其中研究最多的是线性参数模型,文献中有许多成果,参见综述文章Woodall etal.(2004).然而,现有的工作存在有两方面的不足:一,它们都依赖于参数已知的假设;二,他们都建立在简单线性模型基础之上,缺乏统一的一般线性模型的有效且简便的控制方法.由此,我们在第1章中从这两面着手进行研究.对于第一个问题,我们提出了两种不同的解决方案,一种方法是结合序贯变点方法和似然比检验,另一种方法是使用迭代残差构造自启动指数移动平均(EWMA)控制图.两种方法各有优势:前者有良好的理论基础和综合的实际效果,但需要的计算量偏大;后者构造实施简单,可控失控平均运行长度均可由马氏链方法快速计算得到,在实际应用中可根据需要由使用者自行选择,针对第二个问题,我们提出了全新的多元EWMA控制图及相应诊断的统一框架.该方法具有如下优势:首先,由于最终控制图的统计量是一元的,其操作和实现方便;其次可控和失控的运行长度均可由马尔科夫链方法得到,因此设计简单且很容易推广至可变抽样参数的控制图;再次其可同时监控回归系数和profile方差的变化(包括方差增大和减小);最后其具有非常良好的监控效果,   在很多情况下,准确地用参数回归函数描述- profile是相当困难的,尤其当一个profile比较复杂的时候,实际应用中,很多工程师们可能想避免复杂且费时的建模过程.另外,用参数回归的方法存在另一个缺陷是,即使我们正确地描述了可控状态下的profile,但若在失控情形时profile不是简单地参数发生变化,而是模型的结构发生了变化,这种情况下使用参数假设检验方法得到的控制图缺乏稳健性,也就是说在很多情况下,它对过程飘移不敏感,在第2章中,我们首先针对两回归曲线比较这一重要的统计问题进行研究,综合使用广义似然比(Fan etal.2001)和自适应选取带宽的技术(Guerre and Lavergne2005)提出了一新的检验方法并得到了其原假设和备则假设下的极限分布.该问题的研究为我们后面的序贯检验提供了基础,然后我们在2.2节中开创性地提出基于非参数回归方法的指数移动平均控制图,对profile过程的在线监控和诊断问题给予了全面的解答,之后在2.3节中我们提出一基于变点模型的自启动型非参数控制图,该方法采用bootstrap确定控制线,有效地解决了参数未知及误差分布未知时控制图的设计问题.2.4节我们针对非平衡或随机设计的profile数据这一在线控制的难点问题,提出了将指数移动平均引入局部线性回归中的奇特方法,并对自适应权函数,自适应选取带宽以及自启动等问题给予了详细的探讨.最后,针对工业生产中大量profile数据都存在的profile数据内观测是相关的问题,我们创新地引入局部线性混合模型对该类数据进行建模和第一阶段参数估计,并提出了一既有良好理论支撑,又具备快速计算方便实施特点的在线控制方案,通过一个粒状薄板生产线的实际例子说明我们的方法是非常有效的。   传统上,无论是一元或是多元控制图,我们一般假设过程观测服从正态分布,在这样的假设下,我们一般通过似然方法来构造检验统计量再用过程控制图来进行序贯检验,但是,在很多生产过程中,产品指标的分布不服从正态分布且是未知的,这时若用针对正态分布时的控制图及设计会导致两方面严重的不良结果。一是可控时控制图的运行长度会严重偏离我们想要达到的值,从而使得我们对过程失控与否的判断失去根据;二是,由正态分布所得到的检验统计量不一定对非正态过程的飘移敏感,因此在过程失控时,通常很难快速地给出警报.第3章基于两样本的秩检验和动态变点模型,提出一全新的非参数控制图,该控制图结合自启动和非参数两个特点,对各种数据分布具有可控状态稳健性及失控状态的灵敏性的特点,   大量的工业生产过程都存在有数据相关的问题,直接使用在独立假设下开发出的方法通常都会导致非常不良的效果,即便是在相关性不太大的情形下有时亦会如此.我们在第4章中将可变抽样参数控制图的思想推广到自相关数据过程的监控,提出了一在固定时间点抽样的可变抽样区间和样本容量的用于监控自相关数据的控制图,并给出了一综合马氏链和积分方程方法的计算平均运行时间的方法,通过适当选取设计参数,该控制图能够在保证可控平均抽样成本和抽样频率与非可变抽样参数控制图一致的情况下,在过程发生失控时更快速地检查出来,也就是失控平均运行时间最少。   Drift飘移是工业生产中除跳跃飘移外的另一种常见形式,该飘移通常是由于设备的逐渐老化,催化剂的失效,废物的累积以及一些人为因素所造成的.在文献中,已有不少学者针对这种类型的飘移提出了各种控制方法,但是,由于该类型飘移是随时间变化不断变动的飘移,理论研究存在一定的困难,因此文献中这方面的理论结果非常缺乏,在第5章中,我们研究了各种目前最有效的监控该类飘移的控制图的理论性质,并给出了大样本和有限样本的比较结果。   多元数据的监控和诊断在最近二十年来一直是SPC研究领域的重点问题.文献中称该类问题为多元统计过程控制(MSPC).大量的学者开发研究出了许多不同的方法,这些方法不仅在一般的多元数据的监控诊断中使用,并且一些其它类型的问题亦被最终归纳为多元问题而予以采用.在这些方法中,对于监控问题,以采用T2形式或回归调整方法的多元CUSUM或EWMA控制图最为流行.而这些方法本身不能够作为诊断工具,一般仍需采用step-down检验的方法来判断到底哪个或哪几个变量发生变化,尽管T2统计量对于探查一般多元向量的飘移具有一些最优的性质,但它对于结构化的飘移,比如仅有一些变量发生飘移这种情况不是最优的.而另一方面,被设计用于探查最多仅有一个变量发生飘移的回归调整统计量在多个变量同时发生飘移的情形下有时会表现非常糟糕.实际应用中,生产过程中的大多数飘移都具有这样的一个性质:它们仅发生在少数一部分的变量中.我们称这种性质叫做稀疏性.一个很好的控制方法应该利用这一性质并且应该对各种飘移具有稳健性,第6章中我们利用现代变量选择理论的最新发展,使用现在颇为流行的工具LASSO,提出了一全新的多元检验并将其与指数移动平均结合起来建立控制图.该方法能够对这种飘移形式具有良好的稳健性,并且相比于传统方法其对于具有稀疏性的多元过程有更好的监控效果.此外,由于LASSO估计方法所具有的精确稀疏性质,该方法同时还提供了一有效简便的诊断工具。   现代许多的生产过程中不是仅有一个生产阶段,而是由多个相互联系的阶段共同组成的.这就是所谓的多阶段过程.该过程是当今工业工程领域研究的热点问题,可参见专著Shi(2006).如何有效地利用多阶段过程的信息并充分地使用统计方法是统计过程控制研究领域的难点问题.我们在第7章中利用线性state-space模型和方向性多元检验提出了第一阶段和第二阶段的变点探查,监控和诊断方法,并研究了一定的理论性质,数值结果显示该方法具有非常好的效果,明显优于现有的传统方法,   第8章总结了本文,并提出了一些今后的工作设想,
其他文献
假设m、t均为整数,满足0
随着经济的不断发展,中国已经加入了WTO,我国也建立了市场经济体制。知识经济已经逐渐发展起来了,各个企业在进行财务会计管理的时候,也需要根据世界的发展进行不断的调整,为
自20世纪80年代有限单群的分类问题解决后,群和t-设计分类问题引起了世界群论界各学者的广泛关注和致力研究,2-(v,k,1)设计的分类就是其中一个很热门的话题。本文为解决这一分类问
本文主要讨论了具有限时滞和无限时滞的脉冲泛函微分方程的实用稳定性,这两类脉冲泛函微分方程的有界性与周期解的存在性及其在脉冲延时神经网络理论中的应用,以及几类脉冲泛函
随着汽车数量的迅速增长和道路交通事故的频繁发生,如何减少交通事故、降低交通事故造成的损失成为人们关注的重点。行人作为道路交通的主要参与者,同时也是交通事故的直接受
数据质量和隐私保护问题已经引起了学术界广泛的关注,并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误,通常定义为数据的一致性(consistency)、正确性(correct
Helmholtz方程主要描述的是一类波传播现象,包括电磁波、声波、光辐射等,在工程实际和科学技术中有很重要应用。本文考虑半无界条状区域Helmholtz方程,利用完美匹配层(PML)方法
线性保持问题的研究在矩阵和算子代数中是一个活跃的研究领域,有许多研究具有较强的实际意义.设F是一个域,n≥2是整数.用Mn(F)记F上所有n阶阵的集合.令fij(i,j∈[1,n])是关于F的
本文研究了几类泛函微分方程的正周期解. 利用重合度理论,在第二章,研究了一类在缀块环境下具有Beddington型功能性反应和放养的时滞捕食者—食饵系统得到了系统的正周期解存
设1≤p0引导的算子并有一个有界的演算.给出加权Morrey空间的定义,若(此处公式省略)  则f∈Lp,λ(Rn,w).利用算子的性质,将fb用PtBf替代继而给出新的加权Morrey空间的定义.