面向复杂应用的缺失值填补关键技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:aigeng87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,数据呈爆炸式增长,但大多时候数据的产生并没有质量保证。很多真实应用产生的数据通常包含大量的缺失值,甚至在天气、医疗等人们认为数据来源可靠的领域中均有缺失值的存在。另一方面,大多数现有的数据分析工具如机器学习、模式匹配、数据挖掘等均无法很好地处理包含缺失值的数据集,即数据的完整性是很多上层应用对输入数据的基本要求,于是缺失值填补技术应运而生。目前已有的缺失值填补算法主要可以分为两大类,一类是基于近邻的填补,即对于给定的一条缺失数据,通过在数据空间中搜索与其相似的完整数据作为该缺失数据的近邻,进而基于这些近邻对缺失值进行填补;一类是基于回归的填补,即通过构建一条数据中缺失属性与其他完整属性间的相关关系对缺失值进行填补。然而,这些传统的缺失值填补算法大多是针对普遍数据提出的通用模型。但随着科技的不断进步,不同应用背景下产生的数据各具特色,如传感器网络在数据获取过程中通常受能量约束、网络带宽等限制;基因、图片等数据属性间呈现明显的非线性相关关系,实时系统产生的数据通常以流的形式快速实时到达等。已有的传统算法在针对这些数据进行缺失值填补时会受到各种各样的限制,从而导致填补效果不理想。基于此,本文针对不同应用背景下产生的各具特色的数据提出了不同的缺失值填补方法,主要研究内容和创新点包括:第一,本文研究了面向聚簇型缺失数据的缺失值填补问题。通过对多个真实数据集统计分析发现,很多真实数据集中的缺失值比较容易集中、成群地出现,由此定义这种现象为聚簇缺失现象。聚簇缺失现象会导致已有算法对缺失值的填补结果准确性较低。基于此,本文提出了一个顺序敏感的缺失值填补框架,命名为OSICM。首先,OSICM对最优填补顺序问题进行了形式化定义,证明最优填补顺序查找的精确算法为NP难问题,并提出基于动态规划的求解算法,但该算法只适用于缺失数据元组个数非常少的情况。其次,我们证明了最优填补顺序查找的近似最优求解算法也为NP难问题,进而基于启发式规则提出两种分别具有近似线性和线性时间复杂度的填补顺序查找算法;通过在真实和模拟数据集上的大量实验,证明了OSICM填补框架在对聚簇缺失数据进行填补时,其准确性明显优于已有算法,同时具有很好的可伸缩性。第二,本文研究了面向非线性相关数据的缺失值填补问题。随着数据种类的丰富,在越来越多的真实数据集中,数据属性间呈现明显的非线性相关关系。但已有的基于回归的缺失值填补算法大多采用线性回归模型来构建数据缺失属性与完整属性间的相关关系。显然,利用线性模型描述具有非线性相关关系的数据是不适用的。基于此,本文在dAE(denoising Autoencoders)模型基础上,提出了一种新的用于缺失值填补的模型,命名为MIDIA(MIssing Data Imputation denoising Autoencoders)。MIDIA模型旨在通过构建数据元组缺失属性与完整属性间的非线性相关关系对缺失值进行填补。此外,由于MIDIA模型是缺失值驱动的(即在模型训练阶段,训练数据集中缺失值的分布应和测试数据集中缺失值的分布相似),本文针对两种不同的缺失值分布情况,分别提出相应的缺失值填补算法:MIDIA-single和MIDIA-whole。最后通过在真实数据集上进行大量的实验,证明本文算法能够对具有非线性相关性数据的缺失值进行有效填补。第三,本文研究了面向劣质流数据的缺失值填补问题。在很多实时应用中数据的获取均没有质量保证,由此造成数据中除了包含缺失值外还包含大量异常点。另一方面,数据通常以流的形式连续到达,本文定义同时包含大量缺失值及异常点并连续实时到达的数据为劣质流数据。本文面向劣质流数据,提出了一种新的实时且具有容错能力的缺失值填补算法,命名为REMAIN(Real-time and Error-tolerant Missing vAlue ImputaioN)。首先,REMAIN通过对异常数据的有效探测,利用除异常数据之外的正常数据构建缺失值填补模型;其次,在每个时刻,随着数据的不断到达,REMAIN对模型参数进行增量更新从而对缺失值进行实时填补。此外,由于数据属性间的相关性可能以任意形式(或平缓或突然)随时间动态变化,REMAIN引入了褪化点探测机制。通过估计缺失值填补误差实现对褪化点的有效探测,并在褪化点时刻对模型参数进行重新估计。由于用于模型参数初始化的RANSAC算法时间复杂度较高,不适用于大规模流数据,本文提出了一种高效的模型参数重估计算法。最后,通过在真实和模拟数据集上进行大量实验,证明面向劣质流数据的缺失值填补问题,本文提出的REMAIN算法与已有的在线缺失值算法相比,在准确性方面有了较大提升。此外,结合高效的模型参数重估计算法,REMAIN在时间开销方面比已有算法最多降低了一个数量级。第四,本文研究了面向传感数据的物理世界精确恢复问题。目前在越来越多的,如海洋环境、农作物生成状况监测等实际应用中,均通过传感器网络来监测真实物理世界的变化过程。在真实应用环境中,由于传感器网络中感知节点的能量约束、网络带宽等限制,系统获取到的数据通常是较为稀疏的离散点。而物理世界的变化通常是连续平滑的,只基于这些离散点对连续变化的物理世界进行描述会造成数据关键点(如极值点、拐点)的丢失。基于此,如何利用离散数据点构建一条连续平滑的曲线,从而对物理世界的真实变化情况进行准确刻画成为亟待解决的问题之一。直观上,如果将已经获取到的离散感知数据点看作观测数据,而平滑曲线中其他点看作缺失观测数据的话,对物理世界状态的精确恢复可看作是一种特殊的连续缺失值填补问题。为了解决该问题,本文提出了一种平滑性敏感的连续物理世界恢复算法。首先基于已有工作,利用离散数据点基于Hermit插值或Spline插值算法构建一条连续曲线,进而在已有连续曲线基础上引入平滑因子,将曲线的平滑性从一阶连续提高到二阶连续,使之能够获取更多的数据关键点(拐点)信息。进一步,考虑到传感器网络的网络带宽及传感器节点能量约束等限制,提出了一种能耗敏感的数据源选择算法,在满足感知节点能量约束和空间相关性约束条件下,选择部分数据源进行数据传输。最后利用真实和模拟数据集,通过大量实验验证了本文算法的高效性。综上,本文研究了面向复杂应用的缺失值填补问题,针对聚簇型缺失数据、非线性相关数据、劣质流数据以及传感数据,分别提出了有效的缺失值填补算法。理论分析和实验结果都表明,本文提出的方法较已有缺失值填补算法有显著提高。
其他文献
[目的]分析中国儿童青春发动时相评价指标的一致性,分别探讨青春发动时相与身体质量指数(body mass index,BMI)轨迹对青春期血压偏高风险的影响,以及二者对青春期后期血压偏高风险的联合作用。[方法]本研究①分别采用厦门青春期发育队列和中山身高发育队列资料,厦门青春期发育队列共对743名儿童进行了为期2年的随访,每半年随访一次;中山身高发育队列共对15,380名儿童进行了为期12年的随访
研究目的:近年来虽然胃癌的发病率略有下降,但是胃癌仍是世界范围内发病率第五位、死亡率第三位的恶性疾病。胃癌的根治性外科手术仍然是可切除胃癌患者的最重要治疗办法。在保证外科手术切除的质量同时,如何加快胃癌术后的快速康复,减少并发症的发生,提高患者的生活质量,也是外科医生关注的重点问题。自1994年报道了首例腹腔镜用于治疗早期远端胃癌以来,随着腹腔镜手术技术经验积累,腹腔镜技术的适应症也逐步拓展。多个
随着人们对环境保护意识的增强,全社会都在寻找着新能源,以此来替代传统的煤、石油等不可再生的化石能源。由于太阳能具有无污染的优点,它逐渐成为新能源的关注对象,使得光伏发电站以及装机容量都在不断增加。由于光伏发电量受天气变化条件这一不可控因素的影响,光伏发电系统并入电网将会对传统电网造成一定的波动。同时,由于电网的负载变化,也会对电网的调度增加一定的难度。因此,在受天气变化和地域条件限制的情况下,为了
并购是实现企业规模由小到大,能力由弱到强的重要途径。总结企业并购实践可以发现,并购的发展过程表现出两种鲜明的趋势:一方面并购规模越来越大,各国统计的数据表明无论是单次并购的规模还是总的并购规模都在不断增加;另一方面并购种类越来越趋向多样化和复杂化,由最初的横向并购为主逐渐扩展为纵向、多元化等多种并购方式并存,这些并购类别之间的界限越来越模糊,一项并购交易中可能同时存在横向和纵向形式。在并购的上述两
Fe Cr Al氧化物弥散强化(Oxide Dispersion Strengthened,ODS)钢有良好的高温蠕变强度、出色的抗辐照性能和优异的抗腐蚀性能等,是第四代核能系统最有希望的包壳候选材料之一。ODS钢的宏观性能主要取决于基体中弥散分布的纳米氧化物。目前关于合金元素及其含量对Fe Cr Al ODS钢纳米氧化物的物相及其数量比例、弥散形貌和界面结构影响的系统研究还比较缺乏。为了优化合金
近些年,人们针对脉冲电流处理技术对传统的Cu-Zn合金材料的微观组织结构与性能优化等开展了广泛的研究。已经探明该类材料性能的优化源于脉冲电流处理技术作用下材料内组织结构的演变,尤其是脉冲电流诱发的固态相变。然而迄今为止,关于脉冲电流诱发的Cu-Zn合金固态相变的研究仅局限于微观组织结构的表征及性能的测试。有关脉冲电流诱发的Cu-Zn合金固态相变晶体学特征的研究,仅发现了母相与子相之间基本符合44.
为应对化石能源危机及缓解全球气候变暖,越来越多的建筑利用可再生能源替代化石能源以满足其供暖供热的热需求。太阳能供暖系统作为一种可再生能源供暖系统,凭借其环保、节能、低建设成本等特点广泛运用在各个领域中。该系统通过集热装置吸收太阳辐射热量,并将其转化为热量以加热工作流体。利用自然循环或强制循环,流体将收集到的热量储存到蓄热装置中。待有热需求时,由蓄热装置中提取热量供建筑使用。作为太阳能供暖系统的关键
我国大型露天矿山目前已逐步进入深凹开采阶段,露天采场边坡频繁的滑坡灾害已成为影响矿山安全生产最严重的地质灾害之一。抚顺西露天矿是亚洲第一大露天煤矿,开采于1901年,截至2012年底,已形成长6.6km、宽2.2km、深度近500m的巨形露天矿坑。由于地质条件的复杂和恶化,在历史上曾发生过多次滑坡,但规模相对较小。2009年以来,南帮千台山区开始出现地表裂缝,并逐渐加长加宽,尤其在2013年8月发
熄火问题广泛存在于诸如锅炉、内燃机、燃气轮机、以及航空发动机等各类燃烧设备中,对燃烧设备的安全、高效和稳定运行影响重大,因此有着迫切的研究需求,并且一直都是燃烧学界的研究热点。熄火作为一种常见的极限燃烧现象,通常发生在极小的时间间隔和空间范围内,它不仅与燃烧反应动力学直接相关,还与传热传质、流动混合等过程相互耦合。并且对于大分子碳氢燃料而言,熄火过程还会伴随着低温动力学现象。因此影响熄火的因素众多
介电常数近零(Epsilon-near-zero,ENZ)材料,作为一种特殊的超材料展现出很多奇特的电磁特性。时空场变化的失耦导致了在ENZ材料中传播的电磁波具有无穷大波长和相速度、均匀分布的相位和场。基于独特的性质,ENZ材料已经被宽广的应用于调控电磁波与物质的相互作用,主要开展定向辐射器件、集成电吸收调制器、非线性光学、传输波导器件和全光电路板等应用研究。然而,鲜有人关注ENZ材料在新型功能天