论文部分内容阅读
随着网络、数据库和IT技术的迅猛发展,在许多应用领域,比如互联网管理系统、实时传感器信号分析系统、电信系统和金融系统等,生成数据的速率越来越快,从而产生了一种海量、高速和动态的XML数据,称之为XML数据流。在实际应用过程中,网络传输不稳定、信息更新速度过慢、数据收集不完全等情况,会造成XML数据流存在不确定性。本文首先在分析不确定XML文档的不确定性的基础上,使用一种将不确定XML文档分成确定XML文档实例的方法,并依据能将动态的不确定XML数据流转化成静态不确定XML数据的滑动窗口技术,提出了一种基于极限学习机的不确定XML数据流分类算法US-ELM。US-ELM规定滑动窗口每次只滑动一个单位,并且每次滑动后都使用最新的数据重新训练极限学习机。然后分析了 US-ELM滑动策略和概念漂移检测上的不足,并提出了一种基于集成的不确定XML数据流分类算法EUS-ELM。EUS-ELM分类模型规定滑动窗口每次滑动的单位是滑动窗口的大小。在初始化阶段,EUS-ELM使用初始数据训练出多个分类器,并利用分类器不确定性等概念检测当前数据是否对于当前分类器发生概念漂移进而需要重新训练分类器。在测试阶段,EUS-ELM引入投票机制对分类结果进行处理。最后在充分分析了以上两种分类算法后,本文引入增量学习思想解决不确定XML数据流分类问题,提出了基于OS-ELM的不确定XML数据流分类算法UOS-ELM。本文实验表明,在滑动窗口的大小不断增长的情况下,EUS-ELM和UOS-ELM的分类性能高于UC-ELM。在训练时间上,当滑动窗口比较小时,US-ELM在训练时间方面要少于UC-ELM、UOS-ELM和EUS-ELM;当滑动窗口比较大时,UOS-ELM和EUS-ELM的训练时间要少于UC-ELM。EUS-ELM中分类器越多分类准确度越好,阈值越小分类性能越好;此外,UOS-ELM的分类性能会随着数据流的流动而逐渐提高。