基于shapelet的时间序列挖掘方法研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yangnever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据是数据挖掘领域中十分重要的研究对象,广泛存在于各个领域中,具有丰富的研究价值。时间序列数据特点是纬度高、数据量大,使用有监督的挖掘算法需要大量人力资源为数据对象添加类标签。而当数据集中没有任何关于类的信息时,使用无监督方式的方法对数据量大的数据集进行分类效率更加高。近年来,随着诸如云计算和大数据等新兴新概念广泛应用,对聚类算法相关的无监督解决方案的研究工作也有所增加,这些算法可以从大量数据中提取有效信息。根据大数据背景下时间序列数据挖掘的特点,本文提出了一种基于序列局部特征shapelet的时间序列挖掘算法ESUs。ESUs是一种的聚类算法,其中使用的局部特征是U-shapelet,为shapelet的无监督形式,具有解释性强,抗噪声能力强等优点。首先,文中分析了ESUs的原理是借鉴了原始shapelet发现算法OSF的改进思路,通过分析原始算法与改进算法的特点,借鉴表示方法和度量方式的改进思路。其次,提出一种增强的符号化表示方法,在符号化的基础上增加一条序列的趋势信息以防止在降维表示中过多的丢失趋势信息。另外,在度量方式上的改进是通过提出了一种适用于符号化序列的度量方式,符号化Hamming距离,其特点是计算简单,复杂度低,同时能反映子符号序列之间的显著差别。最后,将两点改进思路应用在原始的U-shapelet聚类算法的改进算法OUs E上,并通过实验证明了ESUs在准确率和时间效率上的显著提升。本文还考虑到算法在工程中的实用价值,实现了分布式时间序列处理系统。系统设计采用现阶段流行的分布式微服务的思想,将系统服务按模块拆分。系统模块包含三个部分:系统注册登录与认证模块、时间序列存储与整理模块、数据分析模块。另外设计了简洁的web可视化界面以提供用户图形接口,包括以下功能:服务器订阅管理、处理器状态管理、数据分析操作。该系统设计中各个服务功能耦合低,简单易扩展,数据处理功能包含了大量数据处理流水线模板,使用和维护非常方便。
其他文献
为了发展纳雍县优质李生产,于2001年从贵州省园艺研究所引进玫瑰皇后李进行试验示范种植.结果表明:该品种5年(2006年)后进入盛果期,并连续4年表现出丰产优质的性状,单株产量
随着居民对保质期较短的易腐食品需求的不断增加,多数商家采取零库存的生产方式,即按照客户的订单需求进行生产并安排配送,以尽可能的降低产品在生产-配送环节的损失。然而在实际生产配送中常会突发不可测的事件使原计划受到干扰。因此,如何快速有效地应对干扰事件并尽量减少对整个生产-配送系统的扰动具有很大的现实意义。针对易腐品生产配送的特点,本文考虑时间窗变动这一干扰事件,首先从生产、配送中心、配送员和客户四个
对贵州南亚热带、中亚热带地区3个杂柑果园0~30cm土层的pH值、有机质、碱解氮、有效硼、速效磷、速效钾、有效锌等营养成分进行了检测分析。结果表明:3个果园除土壤有机质及pH
<正>系列直播,"定制"节目,特别环节……2020年来,央卫视推出一系列电视与电商融合的带货直播、扶贫节目,在助力当地农产品销售的同时,也进一步延展"电视+"扶贫助农思路。2020
抗日战争是近现代历史上中国人民第一次战胜帝国主义的伟大民族解放战争,也是世界反法西斯战争的一个重要组成部分.在这场战争中,富有革命光荣传统的四川回族人民虽地处中国
思想政治教育在有效应对集群行为中具有巨大正能量:它能够在集群行为发生发展过程中从消极中发现积极,将"心理问题"转向"人的积极力量"。据此,面对我国时有发生的集群行为,思