因子分析模型多异常点识别的贝叶斯分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhy510167943
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究因子分析模型多异常点的识别问题.在我们的问题中,异常点的个数和因子个数都是未知的.换言之,我们必须同时解决因子分析模型的多异常点识别问题和模型选择问题.针对这个复杂而又困难的问题,本文采用Bayes的方法解决.这当中最棘手的是如何设置异常点的分布.在以前的Bayes统计诊断文献中,一般假定正常点和异常点来自同一个分布族,只是参数值有所不同而已:或者均值发生了漂移,或者方差扩大了.这种做法要求我们对于异常点的产生机制预先有充分的了解.这在实际应用中并不总是可能的,因为异常点的来源一般是不清楚的.本文采取最保守的做法,假定异常点来自整个空间上的均匀分布.这相当于假定没有任何有关异常点的先验知识,对于多异常点的识别问题,本文提出了两套解决方案,即数据扫描法和随机搜索法.   所谓数据扫描法就是为每个数据点设置一个指示变量,用于说明该数据点是否为异常点.与此相对应,在后验分布的抽样算法中,每次迭代都必须更新这些指示变量,换言之,我们要对整个数据集进行扫描,这一方案的最大好处在于容易实现.但是,当数据集比较大时,其计算量之大使人难以忍受.因此,我们提出了另一种方法,随机搜索法.在这一方案中,只有正常点的个数和每个正常点的标号(它们合在一起决定了正常点集)是随机变量,相应的抽样算法每次迭代只更新正常点集,所需的操作无非是增加一个数据点或剔除一个数据点.正常点集的更新是所谓的变维抽样问题,即在迭代过程中变量个数是可变的.为了实现变维抽样,本文采用了生死Markov链Monte Carlo(BDMCMC)方法.与其它方法相比,BDMCMC方法更容易实现.另外,因子个数的确定也是变维抽样问题,文中同样采用生死Markov链Monte Carlo方法确定因子个数.   为了检验算法的精确性和有效性,本文进行了一系列模拟实验.实验结果令人满意:两种方法都能准确地确定因子个数和异常点,而且实验结果对参数的依赖性很小.由于迭代中需要更新的变量大大减少,随机搜索方法对于较大的数据集有明显的优势,在我们的一个实验中,随机搜索方法的计算时间缩减了30%以上.
其他文献
在工农业生产及其科学研究中,大量的实际问题可由非线性(线性)发展方程刻画,如非线性(线性)声波问题,声学问题,环境流体流动问题等.对该类问题的数值模拟已成为应用数学,计算数学和
本文首先给出了模糊离散事件系统中模糊谓词的定义.将一般离散事件系统中的最弱前置条件和最强后置条件推广到模糊离散事件系统中.证明了在一般离散事件系统中,对于给定谓词,先
本文利用马氏链方法及技巧研究BA模型中M为随机变量的情况,严格证明度分布的存在性、无标度性,并给出它的精确解。全文由四部分组成,具体结构如下:   第一章,绪论部分。简要介
本文主要研究序半群的C-理想,左理想与序半群上的格林关系L,单序半群的链,正则序半群的半格合成以及拟分离序半群.全文共分六节.主要内容如下.  第一节是引言与预备知识.  
Heegaard分解是三维流形理论中重要的研究内容.三维流形的中心问题是对三维流形进行分类,而分类中重要的一步是要列举出所有的三维流形.因为任何一个紧致可定向的连通的三维流