高效机器学习算法的若干问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lhm136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习算法赋予了计算机通过挖掘历史数据来总结决策经验的能力。由于其避免了专家系统所需的大量人工规则的整理,机器学习算法已经被广泛应用在诸如文本挖掘、视觉分类、推荐系统等场景中。然而,大部分机器学习算法常常为提升准确率而忽视了实践中效率的牵制问题,其导致的巨大时间复杂度对当下互联网规模的数据极不友好。与此同时,机器学习算法伴随的各种超参数导致大量人力与计算资源耗费在调参过程中,为机器学习算法的训练带来了额外的负担。为此,高效的机器学习(efficient machine learning)获得了越来越多的关注,其旨在快速或方便地从大规模数据中归纳到任务所需的决策经验。本文基于低秩分解、近似估计、分布引导等技术,从分类模型(classification models)的构建、训练样本(training data)的选择性标记及黑盒决策(decisions of blackbox classifiers)的解释三个角度,进行了高效机器学习算法的研究。特别地,本文研究了图模型在半监督学习中的高效分类算法,及其在主动学习中的高效样本选择策略。同时,本文探索了面向深度模型的高效解释算法。本文的具体创新点如下:1.针对图模型的权重计算,提出了快速局部权重评估算法。通过引入绝对值约束以替代不等式约束,将重构误差最小化的优化问题中低效的迭代解转化为高效的解析解。同时,给出了该算法在半监督锚图分类器中的应用,实现了后者权重估计5~10倍的速度提升。2.针对大规模数据的邻接关系建模,提出了层次化锚图模型。通过将锚点层推广到层次化的金字塔结构,构建低秩的数据点标签矩阵,进一步解耦了图模型在效率和性能上的博弈问题;构建了基于样本原空间和谱空间中的高效分类算法,在单机上实现了8百万数据点在2分钟的快速半监督分类。3.针对大数据集合的样本的选择性标记问题,提出了近似的期望误差下降策略。该策略通过快速局部影响力度量和局部误差下降与影响力比率估计,实现了可靠的误差下降估计,并实现了主动学习20~100倍的加速。4.针对深度网络高性能但低可理解性的问题,提出了基于分布引导的卷积神经网络解释方法。该方法通过在UNet网络后端引入分布控制器避免了解释器目标函数的超参设定,实现了解释器的高效优化和决策的快速解释。5.从计算负责度、计算效率以及计算能力角度,分析了高效机器学习的相关工作,并提供了一个面向实践中的高效机器学习算法的选择建议。
其他文献
学位
学位
学位
学位
学位
学位
随着人工智能在医疗行业的快速发展,临床诊疗跨入智能时代。随着医疗数据的不断产生,怎样获取对医学有贡献的信息成为智慧医疗的新方向。在此方向中,特征选择是最为重要的方法,它可以根据数据初始特征集的分布,构建相应的特征选择模型,利用选择后的特征子集,实现分类。特征选择方法和分类算法通常建立在样本均衡且数量足够的前提下。医学数据集中完整的样本获取难度大,样本量少,特征维度高,属于小样本数据集;而且医学数据
我国绿色贷款在绿色金融体系中占据举足轻重的地位,是实体经济绿色低碳发展的重要资金来源。大力发展绿色信贷,着力完善绿色贷款标准、统计、业绩评价等基础性工作,始终是我国绿色金融体系建设的重要任务。2020年,在新冠肺炎疫情给国内经济造成重大打击的背景下,绿色贷款仍取得积极进展。
期刊
骨关节炎是年老人群中引起膝关节疼痛较为常见的疾病。在我国,随着人口老龄化的加剧,骨关节炎的发病率越来越高,尤其以绝经后女性较为多见;如何早期预防骨关节炎的发生,雌激素缺乏是否会引起关节病变,成为了新的认知问题。本文对雌激素及其受体与关节软骨、软骨下骨及骨代谢之间的相关性研究进展作一综述。