【摘 要】
:
TPOT是一种通过优化的方法生成一个机器学习管道的AutoML算法。该算法将机器学习中的特征工程、数据预处理、模型选择、超参数优化等组件一一抽象为了遗传编程中的树型结构中的每一个节点,之后通过对树的结构进行遗传编程优化,可在有限时间内,获取相对最优的机器学习管道。不过,TPOT目前存在的缺点是虽然生成出来的管道好于常规默认参数配置下的普通模型,但在具体的某个应用领域中,还难以达到专家设置的精度。T
论文部分内容阅读
TPOT是一种通过优化的方法生成一个机器学习管道的AutoML算法。该算法将机器学习中的特征工程、数据预处理、模型选择、超参数优化等组件一一抽象为了遗传编程中的树型结构中的每一个节点,之后通过对树的结构进行遗传编程优化,可在有限时间内,获取相对最优的机器学习管道。不过,TPOT目前存在的缺点是虽然生成出来的管道好于常规默认参数配置下的普通模型,但在具体的某个应用领域中,还难以达到专家设置的精度。TPOT的优势在于不依赖领域知识,避免手动调参配置,但也因其采用了进化算法,本身自带的缺陷,在搜索过程中同步优化了模型的超参数,其优化空间受限。鉴于此,本论文主要结合遗传编程特征合成的思想,探讨以非超参数优化的方式优化TPOP所生成的管道,以期进一步提升TPOT算法的性能。遗传编程特征合成是一种用进化算法来合成新特征的方式来对原始数据集进行数据预处理的方法。本论文通过构建遗传编程个体树,后续遍历该树获得用来合成新特征的后缀表达式,用此表达式生成新一列的特征向量。用合成特征后的新数据所训练的模型的性能作为种群个体的适应度指标,让种群在不断的进化迭代中,最终生成的历史最优个体的遗传编程特征合成树作为我们所寻找的目标,以达到对TPOT所搜索到的机器学习管道进一步优化性能的目的。最终,该树作为一种数据预处理模型和TPOT一起结合成一个新的机器学习管道,用于后续的预测任务。而到了预测阶段,需要先将新的测试样本按照该树的后缀表达式所产生的公式,形成新一列的特征,再将这个特征拼接到原来的测试样本中,最后再输入进TPOT所生成的模型中,产生输出结果。为了验证本论文算法对TPOT性能优化上的有效性,在多个通用数据集WDBC,WBC,Tic-tac-toe,Iris和Adult上部署了性能对比实验。通过GPFC-TPOT(本文提出的算法)、TPOT、几个常规机器学习基准模型和人工手动设计的模型的性能对比,在评估模型的10折交叉验证的准确率上,GPFC-TPOT获得了比常规机器学习模型和TPOT更优的性能,分别得到了+1.59%,+1.15%,+3.85%,+2.00%和+0.99%的优化性能提升,其中在Tic-tac-toe和Iris这种超小型数据集上的提升最为明显。最后,分析了GPFC-TPOT相对于TPOT能得到性能提升的原因,并通过可视化遗传编程特征合成树,可视化种群适应度的分布图的优化过程曲线来分析了不同遗传编程的超参数对本论文算法的性能提升所带来的影响。实验证明,在大多数数据集上,本文提出的GPFC-TPOT算法比TPOT拥有更好的性能。
其他文献
蛋白质与RNA的相互作用在很多生命活动中都不可缺少。这种相互作用与生命体中的很多生命活动都息息相关,如基因的翻译与表达和疾病调控等。随着测序技术的高速发展,已经发现的RNA与蛋白质间的相互作用源源不断的增加,这使得利用机器学习方法对RNA蛋白相互作用进行大规模预测成为可能。在过去的十年中,深度学习模型被广泛应用于基于生物序列的预测任务中,包括RBP与RNA相互作用的预测。预测模型的性能一般受限于两
随着饮食习惯的改变和医学诊断的发展,乳腺癌患者的数量逐年增加。乳腺癌已经成为社会上一个主要的公共卫生问题,是女性中最常见的癌症,也是女性死亡的第二大原因。早发现早诊断早治疗是提高治愈率和降低死亡率的关键。乳腺肿块是临床上乳腺癌最常见的病理特征之一,其大小和形状各异,边缘复杂,特征多样,而乳房X光照片则是识别乳腺肿块的重要根据。临床上大多是放射科医师根据X光照片提供可靠的意见辅助诊断,但是人工筛查费
目的:糖尿病肾病是糖尿病的晚期并发症之一。通过检测糖尿病患者血清中的视黄醇结合蛋白、胱抑素C、血尿酸水平,探讨3项指标的联合检测在早期糖尿病肾病中的应用价值。方法:选取329名于2017年7月至2020年7月就诊于吉林大学第一医院住院治疗的2型糖尿病患者,统计患者的基本资料及生化检测指标,根据尿微量白蛋白排泄量分为3组,分析3组患者各项指标的差异及其与尿微量白蛋白的相关性,并探讨UA、RBP、Cy
混合动力技术是重型商用车(以下简称重卡)面对日益严苛的排放法规限制、环境保护需求和运输行业高效节能的运输需求的有效解决方案。当前我国混合动力重卡的发展处于起步阶段,重卡混合动力系统的设计问题显得尤为重要。通过优化设计从成本和节油效果上对不同典型方案进行深入比较,找出混合动力系统各关键设计参数的取值趋势和范围对我国混合动力重卡的发展具有指导意义。本文围绕某一重型半挂牵引车进行不同构型方案的优化设计与
青光眼和糖尿病视网膜病变已经成为导致视力受损和失明的主要疾病。定期筛查对于眼底疾病患者来说尤为重要,可以提早发现病情,延缓病情的发展,避免视力受损和失明的发生。近年来,计算机技术领域飞速发展,计算机辅助诊断系统的应用发展蓬勃。计算机辅助系统可以提高疾病诊断准确率,节省人力物力。因此,眼底影像分析对临床医学有重要的意义。目前,在眼底图像分割任务中,绝大多数方法使用基于U-Net的框架。然而,这些研究
目的:1.研究PBC患者的血脂分布特点2.探讨血脂水平与PBC常见并发症的关系3.探讨PBC患者发生心脑血管疾病的危险因素方法:回顾性分析2012年至2019年于吉林大学第一医院确诊为原发性胆汁性胆管炎的患者。根据纳入及排除标准筛选出270例作为研究对象。收集初诊时一般临床资料(性别、年龄、吸烟、饮酒以及高血压、糖尿病)、并发症情况(包括腹水、消化道出血)、实验室数据(包括血脂、肝功、血常规、凝血
目的了解新冠肺炎疫情期间郑州市驰援武汉医疗队员返郑后心理健康状况,为抗疫一线医务人员心理干预和心理防护提供理论依据。方法应用自编问卷、症状自评量表(SCL-90)、抑郁自评量表(SDS)、焦虑自评量表(SAS)对105例新冠肺炎一线医务人员进行心理测试,并对其中各因子进行相关分析。结果 SCL-90阳性24例(22.86%),SDS标准分≥53分有29例(27.62%),SAS标准分≥50分有9例
程序员技术问答网站已经成为当今社会重要的知识共享平台,Stack Overflow(简称SO)作为当下热门的程序员问答网站,拥有千万级用户,数以亿计的帖子,积累了大量有价值软件工程知识。技术知识最大的特点就是更新频繁,随着时间的推移,网站内分享的技术知识可能会过时,这些过时的信息如果没有被明确标注或记录,可能会误导求助的用户,造成开发事故。网站中过时内容的积累会严重影响网站内容质量,但是目前Sta
研究目的:本文旨在描述单中心ANCA相关性血管炎的临床病理特点,探讨其合并肾损害的预测因子并对预后相关因素进行分析。研究方法:回顾性分析吉林大学第一医院2010年1月至2020年10月临床确诊为ANCA相关性血管炎的患者,经过纳入、排除标准并可获取完整临床资料的患者总计259例,调查其2010年1月至2020年10月住院和门诊随访期间的实验室检查、影像学检查、肾脏活检病理、治疗方案及预后等资料。研