基于条件信息熵的超高维分类数据特征筛选

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:hustyhw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,超高维数据分析与处理中的计算成本、统计精度、算法稳定性等方面问题,是当前人们关注的研究热点。超高维数据的特征筛选已经广泛地应用到生物影像,高频时间序列分析,肿瘤分类和经济预测等相关大数据问题之中。然而,对于解决超高维数据相关问题,现有的高维数据变量选择方法并不适用。于是,研究者依据变量之间相关性来构建筛选指标,针对不同模型不同数据类型提出了相应的边缘筛选方法,实例分析显示效果显著。本文没有遵从已有的根据变量之间相关性进行特征筛选的研究路线,而是从信息量的角度出发,根据信息熵反映变量所包含的信息量大小(基本思想是:如果协变量包含的信息量较少,说明它对响应变量所做的贡献较少,可以认为该协变量为不重要变量)来构建筛选指标,实现超高维数据特征筛选。针对两类别响应变量,本文依据不同类别条件下协变量的信息熵之间的差值建立筛选指标提出了条件信息熵特征筛选方法(CIES)。当响应变量为多类别数据时,在CIES筛选方法的基础上,结合响应变量的类别概率构建相应的筛选指标,提出了加权条件信息熵特征筛选方法(W-CIES)。理论上,这两种筛选方法均具有确定筛选性质,蒙特卡罗模拟也进一步证实了该性质。从模拟结果来看,这两种方法对超高维分类变量的筛选均具有显著的效果。由于本文的筛选指标是由信息熵和条件信息熵构建而成的,而信息熵又是由概率分布组成的,因此在理论证明上也得到了简化。并且该方法具有自由模型性质,适用于任何模型条件,在实际的应用中比较广泛。
其他文献
随着知识管理热的兴起,数字档案馆的知识管理已成为档案学研究的热点。本文就数字档案馆的定位及管理活动的现状,阐述知识管理和数字档案馆管理的几个方面的关系,探讨如何运用知
利用测井资料信息丰富、分辨率高的优势,结合岩心分析,对苏北盆地海安凹陷阜宁组三段地层测井响应特征进行分析研究。提取反映沉积相特征的曲线形态和参数,建立测井相模型。通过
本文详细介绍了基于Ajax和图形验证码技术相结合的方法来实现安全有效的用户身份验证,整个程序设计采用网络编程语言PHP。
<正>7月的一天上午,云阳县生态环境局6楼监测站。副站长冯卫正急着处理一起污染投诉,过了一会儿,他转过身,终于有空聊起他的师傅:云阳县生态环境局副局长黄道春。一个多月前,
介绍了单辊破碎机破碎部位的改造方案,通过改变单辊的齿辊星轮体及篦板的数目和间距,增大了烧结矿破碎粒度,取得巨大的经济效益.
本文从实用的角度出发简要地介绍了估计任意三维组织结构的体积及其总的体积分数、表面积密度、长度密度、平均厚度和积分平均曲率密度的体视学方法,并介绍了各向同性切片和
吴文英《莺啼序》除注重声韵外,还注意吸收美术手法。第一,构建微型景观。即在长句中运用“以文为诗”、“锤炼词的语言”等方式增加信息密度,力争每韵都提供一组较为完整的
当今社会文化因素对科学活动的渗透和影响越来越广泛和深入,亟需从哲学层面对科学活动进行逻辑概括和理性提升,亟需形成一种发挥引领、支撑和矫正作用的科学文化。国内科学哲
本文介绍在Asp.net+SQL Server架构的在线考试系统的设计中,利用SQL Server的newid()函数或ASP.NET中的Random类中Next方法随机从试题库中随机抽取试题进行组卷的两种算法。
文章简述了目前网络课件中“在线白测”模块的缺陷;论述了如何利用随机启发式搜索改进抽题算法;并给出了一种基于模糊数学、概率统计及随机启发式搜索的在线组卷算法;该算法简单