论文部分内容阅读
时间序列作为大数据的一种特殊形式,广泛存在于经济、医疗、语音识别等领域,是人们日常生活中随处可见的一种数据存在形式。随着数据不确定性的普遍存在,研究学者开始关注不确定性对数据潜在信息的影响。本文针对连续型不确定时间序列进行聚类分析与研究,改进传统静态数据聚类算法,寻求更加适合不确定时间序列特性的聚类算法。首先,本文针对不确定时间序列的表示方法,比较了时间序列的动态特性与静态数据之间的差异,并总结了以概率密度表示的连续型不确定时间序列和以概率值表示的离散型不确定时间序列的两种不同表示方法;之后,基于传统静态数据聚类算法的研究,分析了针对时间序列不同相似度计算方法,以及初始簇心选择方法对聚类结果的影响;并基于最小生成树思想,对现有的最大最小值初始簇心选择方法进行改进,使选择出的簇心分布更加均匀。然后,本文改进传统不确定数据聚类算法UK-Means算法,采用概率误差函数来表示时间序列在每个时间点上的观测值与真实值之间的差异。针对不确定时间序列数据集中存在的时间位移误差,采用限制窗口宽度的动态时间规整ULDTW算法来深度挖掘不确定时间序列间复杂的相似性关系,并改进传统均值求簇心的方法,提出了1ToNCenter算法来提高聚类质量。试验表明,在处理不确定时间序列时,与传统UK-Means算法相比,本文提出的基于ULDTW算法的UKMeansULDTW算法的聚类结果的ARI指标有大幅度提高。最后,针对UKMeansULDTW算法中ULDTW算法复杂度较大的问题,本文结合UK-Means算法和凝聚式层次聚类算法对不确定时间序列进行聚类。采用微簇的概念,利用基于欧式期望距离的UK-Means算法将不确定时间序列集划分成分布较为紧密的微簇,然后再使用基于ULDTW算法的层次聚类算法逐步合并微簇,从而减少DTW的计算量。同时,该方法降低了聚类算法对初始簇心的依赖性,使聚类结果更加稳定。