多模态数据特征提取的粒计算方法研究与应用

来源 :西南石油大学 | 被引量 : 4次 | 上传用户：guosheng_741

【摘要】

：

随着传感器网络与物联网的发展,油田等领域的数据以前所未有的速度被大量产生。如何对这些数据进行预处理,以便于存储、挖掘和利用,是大数据领域的核心问题之一。对于结构化

【作者】

：

温柳英

【出处】

：

西南石油大学

【发表日期】

：

2017年01期

【关键词】

：

多模态数据特征提取粒计算离散化属性值划分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着传感器网络与物联网的发展,油田等领域的数据以前所未有的速度被大量产生。如何对这些数据进行预处理,以便于存储、挖掘和利用,是大数据领域的核心问题之一。对于结构化数据而言,特征选择和提取是数据降维的两项重要技术,其中后者更具有挑战性。离散化是数值型数据的经典特征提取方法,多年来一直有新算法被提出,以获得更好的处理速度和效果。属性值划分则是符号型数据的特征提取方法,但未获得足够关注,导致成果较少。粒计算是计算智能领域中的一种普适性方法论,是复杂问题求解的有效工具。在数据预处理时,粒计算从不同角度、不同层次建立粒结构,并选择合适的粒度,获得更利于问题求解的数据表示。粒计算的一些具体理论如粗糙集、模糊集、商空间、三支决策、概念格等,均在特征选择方面取得长足进步,并广泛用于石油、金融、医疗等领域。相比而言,特征提取的工作还比较少。本文针对多模态数据,提出基于粒计算的特征提取一般框架与具体方法,以获得存储空间要求更少、更能提高分类器质量的数据。利用油田真实数据集,以及UCI公共数据集,与其他流行的方法进行对比,验证其先进性。具体贡献如下:(1)设计了适用于特征提取的粒计算框架。该框架包括两个阶段,在粒度构建阶段,从单个特征层面建立粒结构。在粒度选择阶段,通过属性内与属性间的粒度选择,获得最终的特征提取方案。(2)针对数值型数据,提出了一种基于信息熵的双阶段离散化算法。在局部离散化阶段,以最小化条件信息熵为标准,进行单个特征的粒度构建和选择。在全局离散化阶段,利用上一阶段获得的粒度结构来构造扩展决策表,在不损失信息的前提下,选择最粗的粒度。与经典和流行的离散化算法对比,结果显示,该算法具有非常好的泛化能力、较好的分类精度和合理的处理速度。该方法可有效地平衡离散化算法在效率与效果之间的矛盾。(3)针对符号型数据,提出了属性值划分的一种双阶段粒计算方法。在单个属性粒度构建阶段,逐步合并属性值所对应的结点,以自底向上的方式构建一棵二叉树。结点合并时,以最小化信息损失为优化目标,以便属性值重要的分裂尽可能靠近根结点。在全局粒度选择阶段,以信息增益最大化为依据,用自顶向下的方式逐步地分裂树节点,最终获得最佳的属性值划分方案。该方法有效地解决因先验知识稀少带来的诸多问题,实现了属性值粒度结构的自动构建和选择。与最新的属性值分组算法对比,结果表明,该算法可以选择较少的属性值,同时能够保持或者改善分类器的性能。(4)针对混合数据,提出了特征提取的一种融合算法。首先使用局部离散化方法,对每个数值型数据进行初步的离散化,将其转为符号型数据。然后使用属性值划分方法,获得最终的属性提取方案。该方法综合考虑了不同模态特征之间的相关性,用一种全局的角度来进行特征的提取。实验结果表明,该融合算法可以有效地对混合数据进行归一化处理,在保证信息损失最小化的前提下,可以获得更为精简的数据表示。(5)针对符号型数据粒度构建,提出了一种树平衡方法,以进一步改善粒结构的质量。在对单个特征进行粒度的构建时,该算法会为每一次的合并操作计算出候选节点的边界,进而保证合并的两个节点处于同一或者相邻的粒度级别。通过引入该方法,最终构建的所有粒度结构都是一颗平衡的二叉树。由于平衡二叉树具有良好的树结构,因此该算法的引入可减少粒度选择阶段中节点分裂的次数,最终达到降低特征提取算法复杂度的目的。论文的研究工作扩展了粒计算的应用范畴。提出了多模态数据环境下基于粒计算的特征提取方法以达到降低数据存储空间、保持或改善分类能力的目的,对大数据领域中数据预处理的研究具有一定的理论和实际意义。

其他文献

微生物制剂在防治早产儿喂养不耐受中的作用

目的探讨微生物制荆在防治早产儿喂养不耐受中的应用效果。方法选择本院在2015年4月-2016年10月收治的86例早产儿作为研究对象，采用随机数字方法分为研究组和对照组每组43例，对

期刊

微生物制剂早产儿喂养不耐受

物联网数据处理网关的设计

提出了物联网数据的一站式处理服务模式,给出了支持最广泛的接入、使网关具备可管理和灵活部署能力的设计方法;同时以EP9315处理器及相关传感器为硬件平台,以.Net Micro Fram

期刊

物联网网关数据处理中间件.Net Micro Framework

从视觉图景到文化想象——当代中国户外电影的类型探索

青年文化在当下愈发彰显出其巨大的影响力,青年群体的兴趣极大影响了电影消费文化的趋势。伴随着户外运动在国内的盛起,越来越多的电影创作以户外作为其重要的类型指征,尽管

期刊

户外电影青年文化类型实践

基于.NET技术的保险公司营销管理系统设计

基于.NET技术,以Visual Studio 2008为开发环境,采用C#语言、SQL Server 2008作为数据库,设计实现了Client/Server结构的保险营销管理系统,实现保险公司对客户资源及业务的有

期刊

C#.NET保险营销C/S结构

贵州综合运用融资工具穷省也能办大水利

<正>决战水困,同步小康,水利资金不足成为最大拦路虎。近年,贵州加快推进水利投融资管理体制改革,加大水利投融资平台建设力度,成立了贵州省水利投资(集团)有限责任公司作为

期刊

水利投融资平台水务产业骨干水源工程项目法人单位水务一体化水利投资涉水产业大健康产业清洁能源开发平寨水库

抗生素联合前列地尔治疗急性附睾炎的疗效观察

目的观察抗生素联合前列地尔治疗急性附睾炎的疗效。方法收集2015年6月到2017年6月份我院就诊的急性附睾炎患者96例,随机分为试验组和对照组,每组48例。试验组患者给予抗生素

期刊

抗生素前列地尔急性附睾炎疗效

大学生群体对社会主义核心价值体系的认同度——以温州高校为例

构建一种提高大学生群体对社会主义核心价值认同感的模式,具有重要的理论和实践意义。提高大学生群体对社会主义核心价值体系的认同度,"主攻"方面应以社会主义核心价值体系的

期刊

大学生群体社会主义核心价值体系社会主义核心价值观

多模态数据特征提取的粒计算方法研究与应用

其他学术论文