一种新的多向数据分析方法—多重双线性分解及运用初步

来源 :第二军医大学 | 被引量 : 2次 | 上传用户:s83436776
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多向数据成为众多研究领域中越来越常见的一种复杂数据类型,这主要归因于现代计算机的发展,各种测量手段的更新,以及研究对象认识的深入。多向数据通常是几组变量集按照相互交叉的组织形式,通过对其测量而获取的。这样的复杂数据类型具备多重维度,结构丰富而且复杂,难以使用矩阵对其予以描述等特点。多向数组是多向数据的数学描述形式。多向数组分析是分析多向数据的最为基础的数学工具之一。除此之外,在高阶统计理论方面,往往涉及到高阶统计量(高阶的矩、累积量、谱与倒谱等)均是多向数组。正如矩阵分析在传统多元分析中的地位一样,多向数组分析也成为高阶统计理论研究的基本数学工具和方法。因此,急需新的多向数组分析方法对这类复杂数据的内在的潜结构和相互关系进行探索性分析。作为多向数组分析重要部分的多向数组分解有三种最主要的方法,即,用于多向数组的二向奇异值分解(Singular Value Decomposition, SVD)、CANDECOMP-PARAFAC分解(Canonical Decomposition-Parallel Factor Analysis, PARAFAC)与TUCKER分解(Tucker’s Decomposition, TUCKER)。然而,这三种均有各自的缺陷。如果多向数据本质上是多重线性的,那么,PARAFAC和TUCKER则可以提供比二向奇异值分解更为稳健、更具可解释性的模型。另外,PARAFAC数值计算通常并不太稳定,而TUCKER却不保证多向数组近似的唯一性。依据2004年美国数学学会召开的多向数组分解专题会议所提出的“理想”二向SVD扩展方法的几个重要特性,本文提出了一种新的多向数组分解模型。本文假定多向数据是由多重双线性结构生成的,各向对多向数据变异均有不同程度的贡献,可以分解成两个部分,其中一部分为各个向所能单独解释的部分,另外一部分则为各个向的交互所能解释的部分,并且,每个向所能解释的变异是线性可加的,并且与其它向相交互,这种交互只存在于同一成分中,不同成分中它们的交互则不存在。根据这些考虑,提出了具备双重双线性的多向数组分解模型。基于这一模型,本文进而提出了一种新的多向数组分解方法,称为多重双线性分解(Multiple Bilinear Decomposition, MBD),它可以看作是二向奇异值分解到多向的一种自然扩展,并且,提出了一种非基于交替最小二乘的算法,此算法可以一步分解只提取一个成分,无需一次性地提取所有成分。从理论上来说,本文所提出的新方法具有三个重要的性质,包括载荷向量的正交性,闭式分解形式,以及变异的序列化分解等。这些性质暗示多重双线性分解算法具有数值稳定性。并且,类似于奇异值分解,多重双线性分解可以提供每步分解的所得到的成分的变异解释度。对于传统多向数组分解方法,如PARAFAC分解,TUCKER分解等,这三个重要性质是不具备的,或者,只是部分具备的。在理论上,多重双线性分解要优于传统的多向数组分解方法。从模型角度来说,多重双线性分解是矩阵奇异值分解的一种在更高向下更为合理的推广。基于多重双线性模型,本文所给出的非基于交替最小二乘(ALS)的MBD算法,此算法可以一步分解只提取一个成分,可以序列地逐步对多向数组进行分解。由此,可以推测本文所给出的MBD算法更容易实现,也更易保证其算法数值的稳定性。为了验证多重双线性分解方法的效能,设计了一个以正交PARAFAC模型为标准模型的Monte Carlo模拟试验,以载荷向量与其真值的相似度和模型拟合精度作为评价标准。在模拟试验中,随着误差水平的增高,双重双线性分解与PARAFAC分解所得的载荷向量相似度的中位数逐步下降,而其相应的四分位数间距则先增大后减小。但是,在各种误差水平下,就中位数而言,MBD所估计的载荷向量相似度均不小于PARAFAC;就标准差而言,MBD的结果均不大于PARAFAC结果。需要特别注意的是,如若误差水平为O,新方法与PARAFAC等价。另外,就模型拟合精度而言,MBD模型拟合于多向数据的精度均要高于PARAFAC模型。这些结果表明,在载荷向量估计的精确度和稳定性,以及模型的拟合程度方面,多重双线性分解均要优于PARAFAC,即使新方法没有直接使用多重线性的先验信息。另外,由于新方法的分解方式为序列式的,因而,可以认为新方法是PARAFAC的一种更优的备择方法。本文将多向数组分解方法引入到公共卫生研究领域之中。以女中学生营养监测为例,针对女中学生贫血血液生化指标进行分析,以一项青春期女中学生健康调查资料作为实例,从青春期发育特点和营养性贫血的角度,从成分的变异解释度和载荷向量的解释性两个方面,对新方法与传统多向数组分解方法之一的PARAFAC分解进行系统比较。从成分的变异解释度来看,无论是正常组,还是营养性贫血组,MBD前两个成分的变异解释均要高于PARAFAC前两个成分的变异解释度。这说明MBD对多向数据的拟合程度要高于PARAFAC.从载荷向量的解释性上来看,相较于PARAFAC分解而言,多重双线性分解的分析结果更加切合于现有青春期女性发育特点和营养性贫血诊断标准。这说明新方法的可解释性要强于PARAFAC.从实用的角度来可以说,与PARAFAC分解相比较,双重双线性分解是一种更优的多向数组分解方法。综上所述,在多向数据分析中,与传统多向数组分解方法相比较,多重双线性分解在理论性质、模拟参数估计和模型可解释性等方面均具有较好的特性,更适于探索多向数据中丰富而复杂的潜结构和相互关系,值得在易获取多向数据的众多领域进一步推广应用。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
房地产作为为生产和生活提供多种服务的综合性服务产业,一直以其规模和影响力在拉动经济增长和提高人民生活水平方面起着重要作用.
本文通过对60部古今脉学、诊断学专著,1100余篇文献中的脉诊文献进行系统的整理和统计,归纳了古代文献和现代文献中关于临床常见单脉脉象定义、形成机理、临床所主病证、脉图
在上海二期课改新教材2006年7月第二版高中一年级第一学期(试用本)(上海教育出版社)数学课本第46页的探究与实践中有这样一个题目:……
自21世纪以来,我国绝大多数高校在教师教学方面实现了不同形式的360度绩效评价,但是效果并不佳。问题主要在于评价主体的外行化及其与被评价者的合谋、评价指标没有突出教学
本文讨论中世纪荷兰画家博斯的绘画作品对当代话语表达中后现代叙事的种种影响,考察由博斯所启发的多模态叙事模式间的相异与互涉。论文将以澳大利亚小说家安德鲁·林赛的《