论文部分内容阅读
机器学习算法赋予了计算机通过挖掘历史数据来总结决策经验的能力。由于其避免了专家系统所需的大量人工规则的整理,机器学习算法已经被广泛应用在诸如文本挖掘、视觉分类、推荐系统等场景中。然而,大部分机器学习算法常常为提升准确率而忽视了实践中效率的牵制问题,其导致的巨大时间复杂度对当下互联网规模的数据极不友好。与此同时,机器学习算法伴随的各种超参数导致大量人力与计算资源耗费在调参过程中,为机器学习算法的训练带来了额外的负担。为此,高效的机器学习(efficient machine learning)获得了越来越多的关注,其旨在快速或方便地从大规模数据中归纳到任务所需的决策经验。本文基于低秩分解、近似估计、分布引导等技术,从分类模型(classification models)的构建、训练样本(training data)的选择性标记及黑盒决策(decisions of blackbox classifiers)的解释三个角度,进行了高效机器学习算法的研究。特别地,本文研究了图模型在半监督学习中的高效分类算法,及其在主动学习中的高效样本选择策略。同时,本文探索了面向深度模型的高效解释算法。本文的具体创新点如下:1.针对图模型的权重计算,提出了快速局部权重评估算法。通过引入绝对值约束以替代不等式约束,将重构误差最小化的优化问题中低效的迭代解转化为高效的解析解。同时,给出了该算法在半监督锚图分类器中的应用,实现了后者权重估计5~10倍的速度提升。2.针对大规模数据的邻接关系建模,提出了层次化锚图模型。通过将锚点层推广到层次化的金字塔结构,构建低秩的数据点标签矩阵,进一步解耦了图模型在效率和性能上的博弈问题;构建了基于样本原空间和谱空间中的高效分类算法,在单机上实现了8百万数据点在2分钟的快速半监督分类。3.针对大数据集合的样本的选择性标记问题,提出了近似的期望误差下降策略。该策略通过快速局部影响力度量和局部误差下降与影响力比率估计,实现了可靠的误差下降估计,并实现了主动学习20~100倍的加速。4.针对深度网络高性能但低可理解性的问题,提出了基于分布引导的卷积神经网络解释方法。该方法通过在UNet网络后端引入分布控制器避免了解释器目标函数的超参设定,实现了解释器的高效优化和决策的快速解释。5.从计算负责度、计算效率以及计算能力角度,分析了高效机器学习的相关工作,并提供了一个面向实践中的高效机器学习算法的选择建议。