【摘 要】
:
随着大规模高维数据在研究和工业领域的普及,对数据分析和知识发现的可扩展计算技术的需求越来越大。将这些数据转化为知识的关键是学习高效的数据统计模型。由于计算机的性能限制,在单机环境下利用大规模数据集学习模型具有很大的局限性;同时,现有的大量学习统计模型的方法,通常在应用于大规模数据时具有较高的计算成本,或者产生学习能力不强的模型。为了解决这两个问题,本文开展了压缩回归与分类问题的算法与应用研究,本文
论文部分内容阅读
随着大规模高维数据在研究和工业领域的普及,对数据分析和知识发现的可扩展计算技术的需求越来越大。将这些数据转化为知识的关键是学习高效的数据统计模型。由于计算机的性能限制,在单机环境下利用大规模数据集学习模型具有很大的局限性;同时,现有的大量学习统计模型的方法,通常在应用于大规模数据时具有较高的计算成本,或者产生学习能力不强的模型。为了解决这两个问题,本文开展了压缩回归与分类问题的算法与应用研究,本文提出了一种基于定长编码的矩阵压缩方法,并支持快速时间内的随机访问;在此基础上建立了基于压缩矩阵的偏最小二乘回归和偏最小二乘逻辑回归算法,提高了偏最小二乘方法的扩展能力和学习能力。具体内容如下:首先,为了解决单个计算机应用大规模数据集的局限性,本文设计了一种基于定长编码的矩阵压缩算法BCSM(blocked compressed sparse Matrix),该算法按照矩阵行序进行压缩,将所有非零位置的索引连接并进行分块压缩,同时支持快速时间内随机访问矩阵,以应用于分类与回归模型中大量的矩阵运算。之后,本文将压缩矩阵应用于机器学习模型中,提出了基于压缩矩阵的偏最小二乘算法NFPLS。该方法将特征提取分为两个步骤,首先将传统偏最小二乘算法中的主成分分析替换为神经网络算法受限玻尔兹曼机,用于提取能够表达原始数据的低维特征,该改进消除了原始方法不能充分表达数据的非线性特征的局限性,之后修改残差计算公式,在压缩矩阵上利用典型相关分析和线性回归对所提取的特征构建学习模型。受限玻尔兹曼机提取特征的过程运算较为复杂,为了降低训练受限玻尔兹曼机模型的时间复杂度,本文对受限玻尔兹曼机中对比散度算法提出改进,从两个方面识别和消除冗余计算:第一点改进侧重于采样过程,通过给出每个采样单元可能的条件概率的上下限减少不必要的计算;另一点侧重于条件概率的计算,通过重用历史结果以加快计算速度。本文利用这两点改进加快NFPLS模型构建的速度。本文选取了多种数据集进行实验测试,其中包含UCI标准数据集以及经过分词和TF-IDF处理的大规模数据集。本文选取了几种稀疏矩阵压缩算法与本文算法在压缩时间,压缩率以及访问性能进行对比,实验结果表明,本文所提出的压缩方法BCSM在访问性能和压缩率上具有普遍优势,同时,本文利用多个标准评价模型的学习准确率,NFPLS算法在与其他类似算法的比较中,表现出了优秀的回归及分类准确率。
其他文献
目的:前列腺癌是男性最常见的恶性肿瘤之一,并且有着较高的发病率。前列腺癌多见于老年患者,由于老年人各种因素共同作用,使得其罹患前列腺癌后手术有一定难度,术后并发症较
大连市近些年来在养老事业的发展上取得了突出成果,几种典型的养老模式得到了各界的认可。但在精神养老服务方面还处于发展阶段,主要矛盾是供给与需求之间的平衡问题,即老年
岩石孔隙度是影响地震波在岩石介质中传播的主要因素。但是多年学术研究证明,孔隙结构不同而孔隙度相同的岩石等效弹性性质变化也很大。因此,岩石孔隙结构也是影响饱和岩石等效弹性性质的主要因素之一。在储层预测过程中,考虑岩石孔隙结构的影响会提高对储层的预测精度。而目前在岩石物理学中,没有具体定义岩石孔隙结构的物理意义。所以近年来专家们都是根据工区的具体情况来定义孔隙结构。因此,本文从孔隙形状方面出发来定义孔
酰基辅酶A结合蛋白(Acyl CoA binding protein,ACBP)是分子量约有10kD的保守性蛋白,普遍存在于真核生物中。该蛋白能够特异性的与中长链酰基辅酶A酯结合,并且在一定程度上调控
同声传译因其过程的复杂性和交际条件的有限性而成为一项重负荷的认知任务。如何合理应对同声传译过程中多种问题触发因素对译员认知负荷的影响,保证同声传译的质量,受到口译
假设n,m≥1并且λ=(λ1,λ2),λ1,λ2>1.对任意的x=(x1,x2)∈ Rn × Rm,多参数Littlewood-Paley gλ*函数gλ*(f)定义为gλ*(f)(x1,x2)其中Kt,12(f)(x1,x2)=∫∫Rn×Rm(y1,y2,z1,z2)f(z1,z2)dz1dz2.在本论文中,利用乘积Hardy空间的原子分解和Journe覆盖引理证明多参数Littlewoo
本课题同时使用P2探针荧光标记和HPLC药物定量的方法研究了注射用脂肪乳的体内命运。由于P2荧光探针的独特的水淬灭特性,其荧光信号就代表了完整脂肪乳纳米粒子的信号。首先,使用不同的方法制备了P2标记的营养型脂肪乳和丙泊酚脂肪乳注射液,并考察了其各自的体外稳定性,验证了荧光标记方法的可靠性。与此同时,建立了丙泊酚体内样品的HPLC分析方法,并验证了其可靠性和准确性。荧光分析结果表明所有脂肪乳制剂的纳
急性肾损伤(actue kidney injury,AKI)表现为肾功能急剧下降,是一种由多种病因引起的临床综合征,也是临床常见的急危重症之一。其发病原因主要包括缺血缺氧、脓毒血症、肾毒
循环程序的终止性分析是程序验证的重要组成部分。确保循环程序的终止是循环程序完全正确的必要条件。目前,用来证明程序终止性的主流方法是通过合成秩函数的方法来证明。秩
目的:本研究的目的是为了确定McKeown微创食管癌根治术(minimally invasive esophagectomy,MIE)后颈部吻合口瘘(cervical anastomotic leakage,CAL)的危险因素,并确定相应的截断