决策信息系统的连续型特征选取及其应用研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:dangyuanq4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据预处理是机器学习建立模型之前的重要环节,而对不完整数据进行填补和选择重要特征是数据预处理的重要流程。针对现有特征选择数据源存在缺失值、特征选择算法无法确定最优特征子集或运行时间较慢等问题,本文设计并实现了由不完备决策信息系统到完备信息子系统的数据处理流程,主要工作包括:首先使用均值对不完备数据进行预充填,标记缺失位置;之后针对得到的完整数据进行聚类,使用同类数据的均值充填缺失位置;最后多次递归充填,直到前后两次完备数据聚类结果较为稳定或迭代次数超过阈值时停止迭代。在实验阶段通过随机消除数据产生缺失数据集的方式,比较了不同缺失值充填方式下原数据和充填数据的平方误差。实验结果表明,采用聚类加递归充填方法填补缺失数据后,产生的完备数据集充填效果更好,与原数据差异更小。针对此时的完备数据集采用随机森林模型选择和相似性度量结合的方式进行特征初选,并通过前向搜索策略以距离为评价方式对初选集合进行二次筛选,最终获得特征子集。算法采用局部遍历以提高执行效率,同时通过前向选择算法解决传统方法无法确定最优特征数目的问题。实验结果表明,本文提出的方法能更有效地选择特征子集,提高模型的分类准确率。本文实现了对不完备数据的补全并选择重要特征的流程,将该过程应用于岩性识别数据,取得了很好的应用效果。
其他文献
学位
学位
学位
学位
能源作为经济社会发展的重要源泉,在社会生活中的作用日益显著。近年来,能源文学探讨能源发展与文化之间的关系,吸引了众多学者的关注。本翻译项目“Improbability Drives:The Energy of Sf”主要探讨了科幻小说中的能源问题,原文句式以长句为主,逻辑结构强,语篇衔接紧密。本研究在此翻译项目的基础上,以Halliday和Hasan的衔接理论为框架,采取理论与实例相结合的方式,探
学位
为了缓解气候变化,全球能源系统需要从主要基于化石燃料的能源系统转变为效率更高的基于可再生能源的系统。电动汽车以电力为驱动力,比传统燃油车更为清洁,且提供了一个可以将更多的可再生能源引入发电组合可行的机会。当大量电动汽车无序充电,接入电网时,不仅无法同可再生能源发电出力相匹配,促进可再生能源发电的消纳,还可能造成电网负荷增加从而危害电网安全。因此,有必要对电动汽车充电行为进行优化,以充分发挥电动汽车
全球天然气市场联系日益紧密,却又有明显的区域性,在新的市场环境下,北美和欧洲地区已经逐步建立天然气区域定价中心。而亚太地区天然气消费迅速增长,却因为天然气市场尚未形成竞争性的市场价格,市场溢价明显,亚太主要国家力争建立亚太天然气区域定价中心,因此,构建亚太天然气区域定价中心发育程度评价模型可以对亚太主要国家构建亚太天然气区域定价中心的发育程度进行一个动态的评价,分析各主要国家的发育进程,并为其进一
塔河缝洞型油藏具有很强的非均质性,储层流体流动规律复杂。油藏前期主要依靠天然能量开采,随着开采进行,部分井呈现能量供应不足、含水率上升、产量下降等趋势。注入水不能在水驱基础上增加流动通道,且沿高导流通道流动时含水率上升迅速,容易产生平面线性水淹。目前塔河油田已实施注气开发模式,室内实验与矿场结果表明注气可在注水基础上增加流动通道,有效提高原油采收率。但是塔河缝洞型油藏厚度较大且井间连通性差,导致气
增值评价在美国被认为是有效评价教师效能的重要指标之一,在实施“力争上游计划”后,被纳入各州的教师评价体系中;然而,随着研究的深入和增值评价的广泛运用,引发了学术层面的科学性质疑和社会层面的有效性质疑。科学性质疑主要来自于增值评价运用的前提假设条件并不符合实际情况,从而导致评价结果可能存在偏差;有效性质疑主要在于增值评价的结果不稳定、透明度差,难以保证公平性,根据增值评价结果进行高利害人事决策损害了