论文部分内容阅读
随着计算机、通信、网络技术的迅猛发展,许多应用领域出现了海量、高速、动态的数据,如交通工程和网络监控、电信记录管理和分析、商业交易管理和分析、金融信息监控、传感器网络监控等。区别于传统数据库中相对静态的数据,这类海量、持续、有序、快速和突变的数据,称为数据流。如何对这种全新的数据模型进行管理与分析,是一个严峻挑战;而时间序列数据流的分析与管理是其中一个重要研究方向。
随着地震监测技术日趋完善,各级地震台网收集了大量的观测数据,每天都有大量的数据不断流入。这些海量的历史观测数据和实时数据流统称为“地震前兆监测数据”。如何探测这些数据背后隐藏的地震前兆规律,是迫切需要解决的问题。本文在分析时间序列和时间序列数据流特点的基础上,根据地震前兆监测数据的实际应用需求,着重对时间序列数据流的挖掘与相似性查找等一些关键技术进行了研究。具体包括特征模式的并行挖掘、在线增量式并行挖掘、在线相似性模式查找等。本文所做的工作和取得的创新成果体现在以下三个方面:
1)时间序列特征模式并行挖掘研究提出了一种建立在集群式高性能计算机上基于互关联后继树(Inter-Relevant Successive Trees IRST)的并行时序模式挖掘算法,将数据线段化、树的建立及模式发现在多处理机上进行并行处理,有效地改进了算法的执行效率。实验结果表明,此算法较之串行算法有较高的效率。
2)时间序列数据流在线增量式并行挖掘算法研究根据IRST提出了一种并行的增量式数据流挖掘算法:着重从时间序列数据流挖掘目的和实用角度出发,采用滑动窗口窗口技术来处理最近数据序列,并在其上面建立一种基于互关联后继树的索引SIRST(Sequence Inter-Relevant Successive Trees),利用索引查找来发现频繁模式;为了提高算法效率,随着数据流的不断变化,动态更新索引模型SIRST,并引入数据交叠技术和并行计算技术来进一步提高算法的精度和效率。最后,将结果返回给用户,并利用挖掘结果实时更新模式库。
3)动态时间序列在线模式的相似性查找研究针对时间序列在线分析的需要,给出了一种动态时间序列的在线相似性查找算法。该算法采用了一种动态模式匹配距离作为相似性度量方式,为了提高查找效率和缩短响应时间,在计算模式距离时引入了窗口路径限制技术和早放弃技术来提高匹配距离计算效率,并将各指定的模式发送到各个处理器,进行并行的相似性匹配计算来提高响应时间。通过在地震前兆监测数据上的模拟试验表明,该算法比基于欧式距离和动态时间弯曲距离作为相似性度量方式的查找算法有较高的准确性,其效率虽然不如基于欧式距离作为相似性度量方式的查找算法,但比基于动态时间弯曲距离作为相似性度量方式的查找算法却提高了很多。