【摘 要】
:
高维数据特征选择是数据挖掘的重要组成部分,可广泛应用于生物信息学、统计学及图像处理等领域。有效选择信息特征可显著地提高学习精度和结果的可解释性;为提高分类精度,许多现有特征选择方法通过去除数据中的冗余和不相关特征来识别信息特征。由于特征维数随数据规模的增大而增加,易出现维数灾难和过拟合问题;数据高维性不仅增加算法的时间和空间复杂度,也会降低算法的求解精度。针对高维数据特征选择所存在的问题,本文通过
【基金项目】
:
国家重点研发计划:开放式资源及服务集成模型与机理(No.2017YFB1400801); 国家自然科学基金:大数据环境下的大服务理论与方法研究(61572127, 61872077,61832004);
论文部分内容阅读
高维数据特征选择是数据挖掘的重要组成部分,可广泛应用于生物信息学、统计学及图像处理等领域。有效选择信息特征可显著地提高学习精度和结果的可解释性;为提高分类精度,许多现有特征选择方法通过去除数据中的冗余和不相关特征来识别信息特征。由于特征维数随数据规模的增大而增加,易出现维数灾难和过拟合问题;数据高维性不仅增加算法的时间和空间复杂度,也会降低算法的求解精度。针对高维数据特征选择所存在的问题,本文通过引入互信息、联合互信息、条件互信息等信息度量,设计合理有效的特征选择模型和方法来降低数据维度、保留数据的重要特征,论文的主要贡献体现为:(1)自适应结构稀疏回归模型:高维数据的许多重要相关结构有助于提高预测性能,而其噪声特征通常降低预测性能,如何从高维数据中挖掘重要的相关特征结构并去除噪声特征是具有挑战性的问题。基于互信息和联合互信息,提出成对特征相关权重和特征权重的两种权重构造策略;提出一种自适应结构稀疏回归模型,推测出各特征间的局部监督相关结构信息,自适应地选择成组的重要特征,从理论上分析了该模型的重要性质;该模型可实现回归和二分类问题的特征选择。所提出模型与五种现有特征选择模型在10种经典公共基准数据集上的比较实验结果表明,所提模型可有效选择信息特征、具有更好的预测性能。(2)多项式自适应稀疏组Lasso模型:大部分特征选择方法从高维数据选择的特征通常包含降低分类性能的冗余特征。提出一个多项式自适应稀疏组Lasso模型,选择成组的重要特征;为挖掘高维数据特征间的局部监督相关结构信息,基于信息论提出一种新的监督特征聚类算法,将与类标签相关的相似特征进行分组;考虑评估特征和组的重要性,提出一种同时构造特征权重和组权重的方法;提出实现多项式自适应稀疏组Lasso模型复杂计算过程的算法。通过五个常用的公共基准数据集上的对比实验,结果表明该模型能有效地选择重要特征,比现有四个经典特征选择模型具有更好的综合分类性能。(3)最大相关性和最小监督冗余准则:从包含不相关且冗余特征的高维数据中选择富信息特征具有挑战性,不相关和冗余特征通常会降低分类器性能。提出一种有效的特征选择算法,考虑特征相关性和关于类别标签的成对特征相关性,提高分类精度;基于条件互信息和信息熵,提出一种新的监督相似性度量;有监督相似性度量引入至特征最小冗余评估准则,与特征相关性最大化评估准则相结合提出新的最大相关性和最小监督冗余准则,从理论上证明该准则的特征选择可用性。在经典公共基准数据集上对比所提出的方法和六种现有特征选择方法,实验结果表明,所提方法在选择重要特征方面更有效,且可获得更好、更具竞争力的分类性能。(4)加权广义组Lasso模型:高维生物数据的特征选择可筛选出与分类任务高度相关的基因以提高分类精度,解决高维癌症基因表达数据二分类问题的理想方法是能够在分类的同时能自动的选择与癌症密切相关的成组基因。大多数现有基因选择方法无法完全挖掘所选基因间的内在相互作用信息,提出一个加权广义组Lasso模型,选择成组的重要基因;基于加权基因共表达网络分析,提出一种基因分组启发式方法;为确定基因和成组基因的重要性,提出一种基于联合互信息的基因和基因组权重计算方法;提出一个实现加权广义组Lasso模型复杂计算过程的求解算法。在随机和三种癌症基因表达数据上的实验结果表明,该模型比现有的两种基因选择方法具有更好的分类性能。
其他文献
随着物联网与传感器网络技术的迅猛发展,应用场景的复杂性与多样性对于传感器节点的设计提出越来越多新的要求。LC型无源无线传感器基于磁场耦合原理,能够将待测参量转换为传感器的谐振频率,并通过一个探测线圈无线读出,具有结构简单、无需电源、适应性强等优势,引起了国内外研究者的广泛关注。传统的LC型传感器通常只能实现一个参数探测,难以满足不同应用下的多样化需求。本文致力于对LC型无源无线传感器的底层技术研究
癌干细胞(CSCs)与癌症转移、侵袭、恶性转变等行为相关,被普遍认为是化/放疗抗性和癌症复发的重要根源。为了更加针对性地研究其作用机制,需要分离或富集出CSCs。近年来随着三维细胞培养技术的发展,水凝胶因具有广阔的生物医学应用前景而成为当下研究的热点之一。细胞外基质相当于一个多组分的凝胶体系。本论文以甲基乙烯基醚-马来酸交替共聚物[P(MVE-alt-MA)]为主要原料,构造了基于P(MVE-al
生物传感器在生物医学工程中占据了举足轻重的地位,在人类医疗健康领域有着卓越的应用价值。通过对疾病相关的生物标志物进行分析,可以准确的对疾病进行诊断。多元分析技术可以同时对多种疾病相关的生物标志物进行量化,因此得到了广泛的应用。对于多元分析技术来说,开发一种合适的编码微载体是最关键的环节。相比于平面微阵列,编码微载体可以在液体中流动悬浮,与待测样品更充分的反应,成为了生物传感的热门选择。传统方法制备
超宽带高性能光纤接入网(OAN)和5G移动通信网正逐步打造我国“新基建”信息网络接入侧的坚实基础,下一代无源光网络(PON)架构对OAN安全性和可靠性提出了更高的要求。传统PON链路安全管理体系低效费工,在接入侧缺乏有效的链路状态感知和安全管理能力,亟待探寻高效链路安全管理方法和技术。本文以实现二维光编解码无源光网络链路健康检测系统(2DOC-PON-LHDS)应用为目标,深入研究系统用户链路状态
随着时代的发展,农村地区的建设和发展受到前所未有的关注和重视,与城市住宅相比,农村住宅的建设一直处于相对落后的局面。在夏热冬冷的苏南地区,室内热环境质量差、能效低等问题一直影响着农村居民生活质量的改善。而围护结构作为农宅最主要的组成部分,是影响建筑节能、室内热环境质量的重要影响因素。由于农宅自筹自建的方式、对建筑低能耗技术认识不足和各主体的利益不一致等问题,都造成了农宅低能耗技术推广困难。如何兼顾
远监督关系抽取由知识库提供监督,自动产生大规模标注数据,能降低对人工标注的依赖。但是自动标注数据存在噪声,直接用于训练将影响远监督关系抽取模型的性能。训练样例选择是解决远监督关系抽取中噪声问题的重要方法,它从训练样例集合中选择具有正确标注的训练样例,从而减少噪声对远监督关系抽取模型性能的影响。训练样例选择方法分为隐式方法和显式方法。隐式训练样例选择方法主要包括概率图模型(Probabilistic
圆极化天线能抑制雨雾干扰,减小多径反射,消除极化失配,在雷达、卫星通信、军事以及电子对抗中有着广泛的应用。现代通信对设备的小型化、宽频带作业有诸多需求,因此宽带圆极化天线有极大的应用需求。空间来波估计(DOA)能突破阵列波束宽度的限制,实现对空间目标的精确定位,广泛应用于雷达、通信以及声纳等领域。本文围绕宽带圆极化天线和空间来波估计主要开展了如下研究工作:一、基于特征模理论研制了一种宽频微带圆极化
对电磁波的调控是人类的永恒需求,随着科技的发展与军民用需求的提升,对电磁波的动态调控日益凸显重要的地位。在现役装备广泛使用的微波波段,对电磁波的动态控制大多依赖于PIN管、变容管等集总器件,其必须的焊接工艺一定程度上制约了电子器件向轻、薄、柔的目标发展。石墨烯,作为一种诞生于2004年的新型材料,其突出的特点是单原子层结构,厚度只有nm级别。此外,石墨烯属于一种半导体材料,其电导率具有良好的可调特