论文部分内容阅读
随着计算机科学技术的发展,我们步入了“数据爆炸”时代,各行业每天产生的海量数据不断累积,也形成了企业、社会的无形资产。海量的数据包含潜在的各种各样有价值的信息,越来越受到社会各界的重视,数据挖掘技术应用而生。由于时序数据流体量大,连续性强且模态各异,如何对其进行快速分析,挖掘有价值的信息成为一个研究热点。数据流突变点检测技术作为数据挖掘的一个分支,可以从数据整体分布出发,过滤掉大多数常态数据,快速定位突变点位置,分析突变原因及前后数据波动情况。其中,滑动窗口模型可以对数据流进行分割,形成若干子窗口分别分析,有效的提高了数据处理能力和突变点检测速率。突变点检测算法的性能,滑动窗口大小及其更新方式都是影响数据挖掘的重要因素。神经系统疾病,如癫痫、心脏疾病等具有高发病率、高残疾率和高死亡率特点,是一种威胁人类生命安全的主要疾病,此类疾病病理信号作为一种代表性的大数据量时序数据,对其分析检测时耗时和精确度都有较高的要求。本文针对上述现状,以突变点检测算法和滑动窗口模型为基础,提出建立时序数据波动向量的理论,给出了基于波动向量的两种模板匹配算法,可以实现对海量时序数据的快速分析。并选择癫痫脑电信号数据进行应用分析,验证了算法的性能,取得了较好的效果。首先,本文引入一种性能较优的TSTKS突变点检测算法。较好的解决了常见突变点方法检测精度和耗时长的不足。为了解决无法对多突变点进行检测的弊端和提高检测速度,引入滑动窗口理论,提出了基于TSTKS算法和滑动窗口的突变点检测模型。多次对比实验结果表明,相比其他算法,该模型对时序数据的多突变点检测具有较好的检测效果。接着探究特定数据长度下,滑动窗口W变化对检测性能的影响,确定了最佳窗口大小。其次,在突变点检测和滑动窗口基础上提出了建立时序数据波动向量理论,给出了基于时序数据波动向量模板匹配算法。利用TSTKS突变点检测算法和滑动窗口模型,计算每个窗口的波动量,整合建立数据波动向量来表征数据的波动特征,分别提出两种基于模板向量的匹配分类算法。选择真实癫痫脑电病理信号数据进行实验,仿真结果表明,基于相关系数的模板匹配算法适用于发病间期数据的快速检测分析,基于统计波动和SVM的算法对发病间期和前期的数据具有更好的分类效果。两种算法分别有不同的应用场景,且都验证了波动向量作为时序数据特征进行分析的可行性。最后,为了解决癫痫病理信号检测时特征提取复杂,计算量大和实时性不足的问题,本文提出了基于波动向量和SVM的定制化病理疾病专家系统。对患者脑电病理数据模拟实时检测预警,仿真结果表明,专家系统对于癫痫疾病诊断速度较快,且敏感性较高,至少会在发病前1100s发出预警信号。虽然对某些患者存在部分虚警信号,但总体而言,能够为癫痫患者提供一定的治疗和准备时间,满足癫痫实际预警时的需求,推进了癫痫自动检测技术在临床上辅助诊断的应用。