论文部分内容阅读
短时间序列广泛存在于电子商务、宏观经济、科学研究、公共管理等领域。短时间序列数据的基本特征是单条序列的观测数量较少,难以直接应用已有的时间序列挖掘算法。本文分析了两种典型的短时间序列数据类型,根据数据特点和应用需求,提出了有效的挖掘算法。主要内容包括:? 分组短时间序列的关联规则挖掘研究 分组短时间序列广泛存在于政府部门、大型企业和组织的统计数据中。时间序列的关联规则挖掘工作可分为离散化和规则挖掘两个步骤。本文提出 了基于假设检验的离散化算法,并对规则挖掘的Apriori算法做出了改进。此 挖掘算法在中国宏观经济数据的分析上得到了应用。? 非等间距短时间序列的聚类方法研究 非等间距短时间序列广泛存在于电子商务、电子政务等领域。本文提出 了软分配高斯混合模型,此模型不但可以准确地聚类非等间距短时间序列, 而且计算量随数据规模增长而线性增长。此挖掘算法在电信拨号用户的分析 上得到了应用。? 用聚类预测方法改进拨号计费处理 针对在工程应用中遇到的拨号计费处理的性能问题,本文提出了基于选 择性缓存的性能改进方案。聚类预测方法是选择性缓存的核心,在软分配高 斯混合模型的基础上,本文提出了混合二值扩展模型,可以快速聚类并准确 预测。作者采用基于真实拨号数据的模拟实验验证了性能改进方案的有效 性。在理论研究的基础上,作者设计并实现了一个短时间序列挖掘原型系统,此系统提供了友好的图形用户界面和开放的编程接口。