论文部分内容阅读
信息科学的快速发展显著提升了社会生产和生活的智能化水平,其核心是对实时数据的全面采集、安全存储和高效计算。由于数据采集过程的连续性,获得的数据量不断增加,通常需要借助于云计算技术完成存储。从时序角度来看,大量的数据样本汇聚形成了数据流,而数据流中蕴含的信息具有时效性,其价值会随着时间的推移而不断降低。因此,本文分别从云端存储的安全性和计算的时效性两方面研究数据流的相关理论和技术。受免疫系统、记忆系统等生物机理的启发,研究针对不同场景下数值异常问题的新型解决方法。本论文的主要工作可以概括为以下几个方面:
(1)模拟生物免疫系统的机体防御机理,结合云端存储的分布式特性,提出了一种改进的动态免疫算法IDIA(ImprovedDynamic Immune Algorithms)和基于免疫记忆机制的数据样本高效分层检索策略。在抗体生成和动态更新的过程中,分别提出了移位变异和随机分组等改进策略,提升IDIA的抗体生成效率和动态环境的自适应能力。针对云端数据存储问题,以分布式主从结构HDFS(HadoopDistributedFile System)为基础,分析了传统云端数据安全防御方法中存在的各种缺陷,提出了一种基于IDIA的云端数据安全存储方法,以及计算区服务器高效提取存储区待计算数据样本的新模型。将存储区优质数据样本暂存至HDFS的主节点,计算区服务器需要预先拿到主节点中的优质数据样本,再通过存储区基于免疫记忆机制的分层匹配过程,方能获得访问存储区服务器的权限。该过程对于“自己”数据能够实现快速匹配,同时能够有效识别“异己”数据样本,实现安全防御。
(2)受免疫记忆机制能够高效处理动态数据流的启发,本文进一步探索了类脑记忆系统在实时数据流处理中的重要性,主要聚焦于分层记忆机制和时序记忆机制。分层记忆机制通过信息痕迹量将大脑中的信息划分为多层,本文将其划分为三层:短时记忆层、长时记忆层和永久记忆层。再通过对记忆、回忆与遗忘机制建模,定量描述数据样本在系统中的重要程度,并实现数据样本在不同分层间的动态迁移。时序记忆机制则是从时间序列角度出发,通过不断记忆、强化和复现历史经验信息,为当前时刻的预测做参考。
(3)本文根据异常数据的产生形式,将异常问题划分为显式异常和隐式异常。显式异常通常由传输过程中的噪声干扰、网络不稳定、设备老化等外部物理原因造成,而隐式异常则是以内在数据分布的改变为代表。再结合过程工业的实际应用背景,分别通过批处理和流处理来研究数据流中存在的显式异常和隐式异常问题。批处理中主要解决实时数据流中如数值缺失、离群点、噪声和冗余等显式异常问题。数据流与传统数据处理的显著区别在于,前者在以时效性为主要指标的同时追求近似解,后者以精确解为主要指标而缺乏对处理结果时效性的考量。本文所设计的分层记忆网络就是一种基于样本替换的异常问题近似解决方法,适合于对时效性要求严格的在线系统。
(4)数据流是对动态环境的实时感知,除了批处理之外还包含流处理,流处理以单条数据样本为处理单元,其中广泛存在着以概念漂移为代表的隐式异常问题。因此,本文受时序记忆机制启发,设计了一种基于稀疏离散表征的新型异常数值检测器,同时构建了时序记忆与学习网络,该网络利用历史经验知识预测下一时刻未知数据的稀疏离散表征,并与下一时刻的实际表征进行对比完成异常检测。定义了动态数据流的决策矩阵,帮助从含有噪声的动态数据流中识别出概念漂移现象,并促使检测器及时更新以适应新环境。决策矩阵的构建以概念漂移的趋势性和随机噪声的无序性为基础。面向工业应用中基于私人订制的小批量、多模式、个性化的生产系统,实时生产需求的变更体现在数据流中就是概念漂移,及时监测并更新编码器是为了适应定制化的需求。
最后,总结全文,剖析当前研究工作中存在的不足,并展望有待进一步解决的潜在问题。
(1)模拟生物免疫系统的机体防御机理,结合云端存储的分布式特性,提出了一种改进的动态免疫算法IDIA(ImprovedDynamic Immune Algorithms)和基于免疫记忆机制的数据样本高效分层检索策略。在抗体生成和动态更新的过程中,分别提出了移位变异和随机分组等改进策略,提升IDIA的抗体生成效率和动态环境的自适应能力。针对云端数据存储问题,以分布式主从结构HDFS(HadoopDistributedFile System)为基础,分析了传统云端数据安全防御方法中存在的各种缺陷,提出了一种基于IDIA的云端数据安全存储方法,以及计算区服务器高效提取存储区待计算数据样本的新模型。将存储区优质数据样本暂存至HDFS的主节点,计算区服务器需要预先拿到主节点中的优质数据样本,再通过存储区基于免疫记忆机制的分层匹配过程,方能获得访问存储区服务器的权限。该过程对于“自己”数据能够实现快速匹配,同时能够有效识别“异己”数据样本,实现安全防御。
(2)受免疫记忆机制能够高效处理动态数据流的启发,本文进一步探索了类脑记忆系统在实时数据流处理中的重要性,主要聚焦于分层记忆机制和时序记忆机制。分层记忆机制通过信息痕迹量将大脑中的信息划分为多层,本文将其划分为三层:短时记忆层、长时记忆层和永久记忆层。再通过对记忆、回忆与遗忘机制建模,定量描述数据样本在系统中的重要程度,并实现数据样本在不同分层间的动态迁移。时序记忆机制则是从时间序列角度出发,通过不断记忆、强化和复现历史经验信息,为当前时刻的预测做参考。
(3)本文根据异常数据的产生形式,将异常问题划分为显式异常和隐式异常。显式异常通常由传输过程中的噪声干扰、网络不稳定、设备老化等外部物理原因造成,而隐式异常则是以内在数据分布的改变为代表。再结合过程工业的实际应用背景,分别通过批处理和流处理来研究数据流中存在的显式异常和隐式异常问题。批处理中主要解决实时数据流中如数值缺失、离群点、噪声和冗余等显式异常问题。数据流与传统数据处理的显著区别在于,前者在以时效性为主要指标的同时追求近似解,后者以精确解为主要指标而缺乏对处理结果时效性的考量。本文所设计的分层记忆网络就是一种基于样本替换的异常问题近似解决方法,适合于对时效性要求严格的在线系统。
(4)数据流是对动态环境的实时感知,除了批处理之外还包含流处理,流处理以单条数据样本为处理单元,其中广泛存在着以概念漂移为代表的隐式异常问题。因此,本文受时序记忆机制启发,设计了一种基于稀疏离散表征的新型异常数值检测器,同时构建了时序记忆与学习网络,该网络利用历史经验知识预测下一时刻未知数据的稀疏离散表征,并与下一时刻的实际表征进行对比完成异常检测。定义了动态数据流的决策矩阵,帮助从含有噪声的动态数据流中识别出概念漂移现象,并促使检测器及时更新以适应新环境。决策矩阵的构建以概念漂移的趋势性和随机噪声的无序性为基础。面向工业应用中基于私人订制的小批量、多模式、个性化的生产系统,实时生产需求的变更体现在数据流中就是概念漂移,及时监测并更新编码器是为了适应定制化的需求。
最后,总结全文,剖析当前研究工作中存在的不足,并展望有待进一步解决的潜在问题。