基于模型的时间序列数据挖掘——聚类和预测相关问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:Daemonman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,时间序列数据挖掘的研究技术在很多领域得以应用。合适的时间序列模型是对序列特性的一种反映,由于基于模型的时间序列数据挖掘方法能够发现序列的内在规律,因此这种方法具有很好的研究前景。隐Markov模型(Hidden Markov Model,HMM)是一种重要的时间序列模型,本文以HMM为基础,结合监测流数据处理等应用需求,对基于HMM的时间序列数据挖掘相关算法进行了研究,主要内容包括时间序列的识别、HMM的隐状态数的自动选择及初始化、基于HMM的时间序列聚类、股票价格序列的预测等。本文主要的成果包括:   (1)HMM的隐状态数的自动选择及初始化   针对传统基于BIC(Bayesian Information Criterion)的HMM选择方法的不足,如BIC候选模型多,从而导致算法的复杂度大,本文提出了基于聚类和BIC的HMM选择方法——CBIC(Clustering and BIC),基于相应的聚类结果初始化HMM。由于CBIC改变了BIC候选模型的首选方式,减少了不必要的候选HMM的训练,使得算法复杂度降低。在CBIC算法中,首先对观察数据聚类,聚类的个数是在一定的范围内变化。为了选取最可能的聚类,定义了序列中点的趋变度,并选取聚类结果中似然值序列的趋变度最大的聚类为最可能的聚类。为了提高聚类的效率,提出了混合高斯分布的峰度检测算法,并证明了非重叠的混合高斯分布的峰度值为3,而当各成分都不相同时,重叠的混合高斯分布峰度值不等于3。为了验证CBIC算法的有效性,分别在合成数据集与实际数据集上进行实验,结果表明CBIC算法的复杂性小,计算精度较传统方法高。   (2)基于HMM的时间序列聚类   由于基于HMM的时间序列层次聚类算法复杂度很高,因而将分区和分层结合的聚类方法有很大优势,如基于k-Means和分层结合的聚类方法Hier-k-HMMs、Hier-moHMMs方法,但是这种方法需要事先指定划分数、HMM的隐状态数和最终的聚类数,另外划分的初始化及HMM的初始化都对聚类质量有很大影响。针对这些不足,提出了一种基于HMM的时间序列聚类算法HBHCTS。采用基于距离阈值的初始分区生成方法,定义了基准概率,提出了一种有效的距离阈值设置方法。HBHCTS算法单遍扫描时间序列集形成初始分区,能以较高置信水平保证初始分区的正确性,避免了指定分区数,如Hier-moHMMs方法,而且HBHCTS使用第三章提出的CBIC方法,可以自动确定HMM的隐状态数和相应的HMM初始化。HBHCTS算法的优点为:1)不需要指定初始的聚类数及相应的初始化;2)不需要指定HMM的隐状态数及相应的初始化;3)可以清楚地给出类的表示;4)对序列长度不敏感;5)当有新的序列加入时,只是将新的序列与已有的类(模型)集合做比较,不需要所有的序列重新执行聚类算法,易于实现增量聚类,初始分区聚类适用于时间序列流数据处理。分别在合成数据集和实际的EEG数据集进行了实验,同Hier-moHMMs方法进行了比较,实验结果表明HBHCTS和CBIC方法是有效的。   (3)股票价格序列的自适应预测   结合股票价格序列的特点,提出了一种自适应的基于HMM的股票价格预测的方法。原始的IBM、Dell和Apple股票价格序列不适合建立HMM。通过研究股票收益率的短相关特征,认为IBM、Dell和Apple的收益率序列适合用HMM描述。采用本文提出的CBIC方法自动确定HMM隐状态数,在预测过程中当预测误差大于一定阈值时,采用模型自动更新方法建立新的模型。通过对股票价格序列的不同转换,建立相应的HMM,进行了单步值预测和趋势预测。单步值预测同Hassan等人的HMM fusion model方法、ARIMA方法进行了比较,实验结果表明所提出的预测算法在IBM、Dell和Apple股票价格预测中,比现有的不更新模型的方法能得到更好的结果。
其他文献
快速发展的现代互联网在给人们带来大量信息的同时,也不可避免地产生了难以让用户快速获取有效信息的问题。搜索引擎的出现使这一问题得到了一定程度的缓解。它面向任何Web用
学位
存储技术的高速发展对存储管理提出了更高的要求。如何降低管理的复杂性以及提高管理软件之间的互可操作性,实现对不同存储系统集中的实时监控和远程管理已经成为一个热点问
学位
可信计算是一种信息系统安全新技术,提供数据完整性、安全存储、平台身份证明等可信功能,从终端入手解决信息安全问题。用户获取可信功能必须通过平台的授权认证,因此授权认
当前OCR识别方案已经发展到较高的水平,基于单一引擎、单一识别方案的OCR系统的识别率几乎达到极限,在此基础上提高识别率难度较大,因此国内外的研究重点开始转移到多识别方
学位
随着网络技术的飞速发展以及频繁使用到我们的生活工作当中,使得用户无限制的使用移动终端连接分布式移动数据库,这样造成连接能力,随时随地的移动,数据中事务处理的同步成为
随着互联网上Web信息爆炸性地增长,如何从海量数据中快速准确的找到所需信息已成为亟待解决的问题。传统以关键词模式的搜索服务在一定程度上已不能满足人们对信息获取的要求
学位
远程多媒体通用课件制作平台(Universal Remote Multimedia Courseware Making Platform)是基于B/S架构的分布式多媒体的应用系统。远程视频点播是流媒体技术在媒体通信应用
无线数据传输技术和Intemet技术是当今正在飞速发展的两种网络技术,让这两种近年来最成功的技术完美的结合在一起,是人们多年来的梦想。今天,第三代移动通信系统提供的高速带
学位
特征选择在模式分类过程中发挥着重要作用,选择的特征正确与否直接关系到分类结果的正确率,因此特征选择方法直接影响着系统的性能和质量。但是目前的多数特征选择方法都存在
随着宽带网和信息技术的发展,流媒体的应用越来越广泛,经历了从最初的共享MP3音乐文件,到视频直播和点播的发展过程。在视频直播服务中,用户可以在不同的频道间切换,但不能控