面向工业大数据的高维时间序列清洗系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:seelo1332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代发展,时间序列数据在大数据时代扮演着越来越重要的角色。在以往金融、气象相关领域的时间序列数据的研究中,对与其相关的时间序列数据的特性研究得已经比较完备,利用统计学的方法能够对这些时间序列数据进行有效的分析处理。然而近年来,工业上的时间序列数据日渐引起关注,引出了很多关于时间序列数据处理上的新问题。在处理高维时间序列数据上的质量问题时,单一维度上的时间序列处理方法由于无法正确、有效分析多维数据之间的关系,已不再适用,对工业上的高维时间序列数据的研究近乎空白。基于上述背景,本文以工业大数据上的高维时间序列数据作为重点,进行了问题分析、算法研发、系统开发等工作。本文提出了“高维时间序列数据的错列检测与修正”、“高维时间序列上的值异常检测与修正”两个高维时间序列数据上的异常问题,主要完成的算法研究和系统开发内容如下:(1)对于错列检测与修正问题,本文提出了一个在线与离线相结合的算法,在无先验知识或只拥有少量先验知识的情况下,通过模式确定、异常检测、综合清洗三个步骤,完成了对工业高维时间序列数据的异常的检测与修正,该算法可以排除干扰和小范围浮动,精准定位异常区间。(2)对于值异常检测与修正问题,本文将其分为“单维时间序列值异常的检测与修正”与“多维度辅助高维时间序列值异常检测与修正”两部分进行了讨论解决。在单维异常检测修正部分,本文使用传统的统计学方法和LSTM神经网络分别对异常点和异常区间进行检测;在多维度辅助检测修正部分,本文提出了一个运行时间随数据量线性增长的算法,通过相关性分析、求解置信区间、确定异常项、执行修正四个步骤,完成了多维度辅助高维时间序列数据检测修正。(3)以上述算法为基础,本文开发了一个面向工业大数据的高维时间序列清洗系统Cleanits,实现了包括数据清洗、清洗结果可视化、度量分析在内的多种功能。
其他文献
以牛血块为原料,采用超滤、加热、阴离子交换层析技术制备了牛血SOD。牛血块捣碎液1000ml可得比活为11324U/mg蛋白的SOD32mg,活性回收率为54.7%。以明胶为囊材,乳化法制备了SOD明胶
在文化全球化的时代背景下,文化研究成为学术研究的一种话语模式。作为文化转换过程中的一部分,翻译中文化信息的损失具有不可避免性。文章从文化研究的视角,分析翻译损失的成因
在抗结核治疗中,以异烟肼,利福平和吡嗪酰胺为核心的化疗药物均具有肝细胞毒性,联合应用加重肝损的程度,且目前对药物性肝损的发病机制认识不清,影响因素也没有一致性的认同[
档案馆作为第三空间的重要组成部分,具有弥补社会交流平台缺失、促进城市公共文化建设、凸显档案馆作为社会存在等社会价值,因此,本文提出,以城市发展规划为依托,打造档案馆
对爆炸危险环境中常用电缆使用情况进行分析,介绍电缆的使用和发展状况。为正确地选择电缆及研发相关连接装置和过渡装置寻找可行的途径。
本文研究了不同的处理工艺对蒙乃尔粉末的性能和形貌特性的影响,以提高蒙乃尔多孔材料压制成形性和样坯的强度。实验结果发现,压制过的回收粉,分别经过氢气还原和真空退火处理后
通过对包山楚简中关于身分记载的资料的爬梳考辨,我们得以比较具体地了解战国中期楚地身分制度及社会等级的大致情形。如国家直接掌握大量的“编户齐民”,但自由民、尤其是贵族
衡阳冶金机械厂热处理车间井式炉大型沉井的平面外框尺寸为28×14米,外框壁厚90厘米,井内设有钢筋混凝土间壁及若干衬梁,根据设计要求刃脚下沉至地面以下16米,如图所示。工
航天科技是国家综合国力和科技实力的重要体现,而卫星遥感则是航天科技转化为生产力最直接、最现实的途径之一。遥感数据获取与分发、数据处理与信息提取是卫星遥感应用的两
据说,中国的卷烟烟包是目前精度要求最高、印刷技术含量最全面的包装产品,其印刷技术和工艺可与钞票和有价证券相媲美。那么从过去到现在,烟包上的主要防伪技术有哪些呢?