[论文解读] Adaptive Classification for Prediction Under a Budget
本文提出一种自下而上的自适应分类方法,通过学习一个门控函数和低成本预测模型来近似高精度、高成本的模型,从而降低推理阶段的预测成本。通过联合优化准确率与成本约束(使用共享特征的期望风险最小化),该方法在不损失准确率的前提下,实现了高达63%的平均成本降低,在基准数据集上优于最先进的自上而下和自下而上的方法。
We propose a novel adaptive approximation approach for test-time resource-constrained prediction. Given an input instance at test-time, a gating function identifies a prediction model for the input among a collection of models. Our objective is to minimize overall average cost without sacrificing accuracy. We learn gating and prediction models on fully labeled training data by means of a bottom-up strategy. Our novel bottom-up method first trains a high-accuracy complex model. Then a low-complexity gating and prediction model are subsequently learned to adaptively approximate the high-accuracy model in regions where low-cost models are capable of making highly accurate predictions. We pose an empirical loss minimization problem with cost constraints to jointly train gating and prediction models. On a number of benchmark datasets our method outperforms state-of-the-art achieving higher accuracy for the same cost.
研究动机与目标
- 解决机器学习应用中因特征提取或计算产生成本的资源受限预测问题。
- 开发一种在预算约束下最小化总体预测成本同时保持高准确率的方法。
- 通过提出自下而上的近似策略,克服自上而下特征选择固有的组合复杂性挑战。
- 在不从头开始重新训练的前提下,实现对现有高成本遗留系统的成本降低。
- 联合学习一个低成本门控函数和预测模型,以在输入较易区域自适应地近似高精度模型。
提出的方法
- 该方法首先使用任意标准方法在完全标注的训练数据上训练一个高精度模型(HPC)。
- 然后学习一个低成本门控函数和一个低预测成本(LPC)模型,以在可维持准确率的区域自适应地近似HPC模型。
- 联合学习过程被表述为带成本约束的期望风险最小化问题,采用基于间隔的目标函数。
- 采用交替最小化方案,每一步等价于对概率空间进行I-投影或M-投影,确保收敛性。
- 该方法倾向于在门控函数和LPC模型之间共享特征和决策架构,以降低总体成本。
- 该方法可递归应用于多个阶段以优化准确率-成本权衡,尽管单阶段已优于最先进的方法。
实验结果
研究问题
- RQ1在预算约束下,自下而上的自适应近似方法是否能在准确率-成本权衡上优于自上而下的特征选择?
- RQ2如何联合训练门控函数和低成本预测模型,以在最小化推理阶段成本的同时保持高准确率?
- RQ3在不牺牲整体性能的前提下,高精度模型在简单输入区域可被低成本模型近似到何种程度?
- RQ4门控函数与预测模型之间共享特征使用是否能带来更好的成本降低和泛化性能?
- RQ5该方法是否可有效应用于现有高成本遗留系统而无需从头开始重新训练?
主要发现
- 在MiniBooNE数据集上,Adapt-Gbrt将平均特征成本降低了63%;在Forest Covertype上降低了32%;在Yahoo! Rank上降低了58%;在CIFAR10上降低了12%;在Letters上降低了31%,且准确率损失不超过1%。
- 在所有基准数据集上,该方法在准确率-成本性能方面均优于GreedyMiser、BudgetPrune及其他最先进的方法。
- 在Forest Covertype数据集上,即使GreedyMiser在成本为658时精度达到峰值0.138,Adapt-Gbrt仍保持更高的准确率。
- Adapt-Gbrt显著优于Adapt-Lin,尤其是在近似RBF-SVM和随机森林等强大非线性模型时。
- 该方法在所有数据集上实现了40%的平均成本降低,同时测试准确率与原始高精度模型相差不超过1%。
- 该方法的递归应用可进一步优化准确率-成本权衡,尽管单阶段已超越最先进的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。