论文部分内容阅读
随着传感器网络与物联网的发展,油田等领域的数据以前所未有的速度被大量产生。如何对这些数据进行预处理,以便于存储、挖掘和利用,是大数据领域的核心问题之一。对于结构化数据而言,特征选择和提取是数据降维的两项重要技术,其中后者更具有挑战性。离散化是数值型数据的经典特征提取方法,多年来一直有新算法被提出,以获得更好的处理速度和效果。属性值划分则是符号型数据的特征提取方法,但未获得足够关注,导致成果较少。粒计算是计算智能领域中的一种普适性方法论,是复杂问题求解的有效工具。在数据预处理时,粒计算从不同角度、不同层次建立粒结构,并选择合适的粒度,获得更利于问题求解的数据表示。粒计算的一些具体理论如粗糙集、模糊集、商空间、三支决策、概念格等,均在特征选择方面取得长足进步,并广泛用于石油、金融、医疗等领域。相比而言,特征提取的工作还比较少。本文针对多模态数据,提出基于粒计算的特征提取一般框架与具体方法,以获得存储空间要求更少、更能提高分类器质量的数据。利用油田真实数据集,以及UCI公共数据集,与其他流行的方法进行对比,验证其先进性。具体贡献如下:(1)设计了适用于特征提取的粒计算框架。该框架包括两个阶段,在粒度构建阶段,从单个特征层面建立粒结构。在粒度选择阶段,通过属性内与属性间的粒度选择,获得最终的特征提取方案。(2)针对数值型数据,提出了一种基于信息熵的双阶段离散化算法。在局部离散化阶段,以最小化条件信息熵为标准,进行单个特征的粒度构建和选择。在全局离散化阶段,利用上一阶段获得的粒度结构来构造扩展决策表,在不损失信息的前提下,选择最粗的粒度。与经典和流行的离散化算法对比,结果显示,该算法具有非常好的泛化能力、较好的分类精度和合理的处理速度。该方法可有效地平衡离散化算法在效率与效果之间的矛盾。(3)针对符号型数据,提出了属性值划分的一种双阶段粒计算方法。在单个属性粒度构建阶段,逐步合并属性值所对应的结点,以自底向上的方式构建一棵二叉树。结点合并时,以最小化信息损失为优化目标,以便属性值重要的分裂尽可能靠近根结点。在全局粒度选择阶段,以信息增益最大化为依据,用自顶向下的方式逐步地分裂树节点,最终获得最佳的属性值划分方案。该方法有效地解决因先验知识稀少带来的诸多问题,实现了属性值粒度结构的自动构建和选择。与最新的属性值分组算法对比,结果表明,该算法可以选择较少的属性值,同时能够保持或者改善分类器的性能。(4)针对混合数据,提出了特征提取的一种融合算法。首先使用局部离散化方法,对每个数值型数据进行初步的离散化,将其转为符号型数据。然后使用属性值划分方法,获得最终的属性提取方案。该方法综合考虑了不同模态特征之间的相关性,用一种全局的角度来进行特征的提取。实验结果表明,该融合算法可以有效地对混合数据进行归一化处理,在保证信息损失最小化的前提下,可以获得更为精简的数据表示。(5)针对符号型数据粒度构建,提出了一种树平衡方法,以进一步改善粒结构的质量。在对单个特征进行粒度的构建时,该算法会为每一次的合并操作计算出候选节点的边界,进而保证合并的两个节点处于同一或者相邻的粒度级别。通过引入该方法,最终构建的所有粒度结构都是一颗平衡的二叉树。由于平衡二叉树具有良好的树结构,因此该算法的引入可减少粒度选择阶段中节点分裂的次数,最终达到降低特征提取算法复杂度的目的。论文的研究工作扩展了粒计算的应用范畴。提出了多模态数据环境下基于粒计算的特征提取方法以达到降低数据存储空间、保持或改善分类能力的目的,对大数据领域中数据预处理的研究具有一定的理论和实际意义。