[论文解读] The Greedy Miser: Learning under Test-time Budgets
本文提出一种贪婪的、成本感知的学习算法,通过将特征提取成本建模为损失函数的一部分,在训练过程中显式优化推理时的计算成本。通过将非连续的全局目标松弛为连续的代理损失,该方法实现了基于梯度提升的分阶段回归,其准确率与无约束模型相当,同时将推理时的计算成本降低了整整一个数量级。
As machine learning algorithms increasingly enter real-world settings, there is rising interest in controlling the cpu-cost during test-time. In industry, computational resources must be budgeted and costs must be strictly accounted for. At its very core, this problem is inherently a tradeoff between accuracy and test-time computation. Test-time computation consists of two components: 1. the actual running time of the algorithm; 2. the time required for feature extraction. The latter can vary drastically if the feature set is diverse. In this abstract, we propose a novel algorithm that explicitly considers the feature extraction cost during training. We first state the (non-continuous) global objective, which explicitly trades off feature cost and accuracy, and then relax it into a continuous loss function. Subsequently, we derive an update rule that shows the resulting loss lends itself naturally to greedy optimization with stage-wise regression [4]. The resulting learning algorithm is much simpler than any prior work, yet leads to superior test-time performance. Its accuracy matches that of the unconstrained baseline (with unlimited resources) while achieving an order of magnitude reduction of test-time cost. Cost-sensitive learning. We use gradient-boosting [4] to learn a classifier H(x) = ∑T t=1 βtht(x) to minimize some loss ℓ(H). Here, ht ∈ H where H is the set of all possible regression trees [1] of some limited
研究动机与目标
- 为解决现实世界机器学习部署中对计算成本控制日益增长的需求,尤其是在CPU资源严格受限的场景下。
- 建模并优化推理时的特征提取成本与推理时间的综合成本,这一因素在标准学习框架中常被忽视。
- 开发一种训练过程,能够以可微分、连续的方式显式权衡特征提取成本与模型准确率。
- 实现高效、贪婪的优化,使模型性能与无约束模型相当,同时大幅降低推理时的资源使用。
- 通过在梯度提升中采用分阶段回归,简化成本敏感学习,直接优化推理时效率。
提出的方法
- 该方法将一个非连续的全局目标形式化,该目标联合优化模型准确率与特征提取成本。
- 该目标被松弛为一个连续的代理损失函数,以支持基于梯度的优化。
- 由此产生的损失函数天然适用于使用回归树进行贪婪的、分阶段的优化。
- 该算法学习一系列弱学习器(回归树),逐步改进准确率与成本之间的权衡。
- 特征提取成本被显式建模为损失函数的一部分,使模型能够学习根据计算成本优先选择哪些特征。
- 最终分类器由弱学习器的加权和构成,每一阶段都在成本约束下最小化松弛后的损失。
实验结果
研究问题
- RQ1能否训练一种学习算法,在不牺牲模型准确率的前提下最小化推理时的计算成本?
- RQ2如何在训练过程中以可微分且连续的方式有效建模并优化特征提取成本?
- RQ3能否使用贪婪的、分阶段的优化策略,在匹配无约束性能的同时实现更优的推理时效率?
- RQ4当准确率与特征提取成本在训练过程中均被显式优化时,二者之间的权衡关系如何?
- RQ5与无约束基线模型相比,所提出方法在推理时成本与准确率方面表现如何?
主要发现
- 所提出的算法在推理时的准确率与使用无限计算资源的无约束基线模型相当。
- 与无约束基线相比,该方法将推理时的计算成本降低了整整一个数量级。
- 对全局目标的连续松弛使得通过梯度提升实现有效且稳定的优化成为可能。
- 贪婪的、分阶段的训练过程通过学习优先选择低成本、高影响的特征,实现了高效的推理。
- 通过在训练中学习成本感知表征,模型对未见过的推理时预算表现出强大的泛化能力。
- 在受限预算下,该方法在效率和准确率方面均优于先前的成本敏感学习方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。