论文部分内容阅读
时间序列数据是数据挖掘领域中十分重要的研究对象,广泛存在于各个领域中,具有丰富的研究价值。时间序列数据特点是纬度高、数据量大,使用有监督的挖掘算法需要大量人力资源为数据对象添加类标签。而当数据集中没有任何关于类的信息时,使用无监督方式的方法对数据量大的数据集进行分类效率更加高。近年来,随着诸如云计算和大数据等新兴新概念广泛应用,对聚类算法相关的无监督解决方案的研究工作也有所增加,这些算法可以从大量数据中提取有效信息。根据大数据背景下时间序列数据挖掘的特点,本文提出了一种基于序列局部特征shapelet的时间序列挖掘算法ESUs。ESUs是一种的聚类算法,其中使用的局部特征是U-shapelet,为shapelet的无监督形式,具有解释性强,抗噪声能力强等优点。首先,文中分析了ESUs的原理是借鉴了原始shapelet发现算法OSF的改进思路,通过分析原始算法与改进算法的特点,借鉴表示方法和度量方式的改进思路。其次,提出一种增强的符号化表示方法,在符号化的基础上增加一条序列的趋势信息以防止在降维表示中过多的丢失趋势信息。另外,在度量方式上的改进是通过提出了一种适用于符号化序列的度量方式,符号化Hamming距离,其特点是计算简单,复杂度低,同时能反映子符号序列之间的显著差别。最后,将两点改进思路应用在原始的U-shapelet聚类算法的改进算法OUs E上,并通过实验证明了ESUs在准确率和时间效率上的显著提升。本文还考虑到算法在工程中的实用价值,实现了分布式时间序列处理系统。系统设计采用现阶段流行的分布式微服务的思想,将系统服务按模块拆分。系统模块包含三个部分:系统注册登录与认证模块、时间序列存储与整理模块、数据分析模块。另外设计了简洁的web可视化界面以提供用户图形接口,包括以下功能:服务器订阅管理、处理器状态管理、数据分析操作。该系统设计中各个服务功能耦合低,简单易扩展,数据处理功能包含了大量数据处理流水线模板,使用和维护非常方便。