[论文解读] IDK Cascades: Fast Deep Learning by Learning not to Overthink
本文提出 IDK Cascades 框架,通过使用轻量级的“我不知道”(IDK)分类器,将简单输入路由至快速模型,仅将复杂输入升级至更准确但计算成本更高的模型,从而加速深度学习推理。通过利用基于熵或置信度分数的模型不确定性,并优化成本感知目标,该方法在几乎不损失准确率的情况下将推理成本降低高达 80%,在自动驾驶任务中实现了接近完美的准确率,且人工干预低于 30%。
Advances in deep learning have led to substantial increases in prediction accuracy but have been accompanied by increases in the cost of rendering predictions. We conjecture that fora majority of real-world inputs, the recent advances in deep learning have created models that effectively "overthink" on simple inputs. In this paper, we revisit the classic question of building model cascades that primarily leverage class asymmetry to reduce cost. We introduce the "I Don't Know"(IDK) prediction cascades framework, a general framework to systematically compose a set of pre-trained models to accelerate inference without a loss in prediction accuracy. We propose two search based methods for constructing cascades as well as a new cost-aware objective within this framework. The proposed IDK cascade framework can be easily adopted in the existing model serving systems without additional model re-training. We evaluate the proposed techniques on a range of benchmarks to demonstrate the effectiveness of the proposed framework.
研究动机与目标
- 为解决尽管准确率高,但深度学习模型推理成本持续增长的问题,特别是针对被过度分析的简单输入。
- 开发一种无需微调基础模型或修改其架构的框架,实现高效的模型级联。
- 提出一种成本效益高的方法,仅使用预训练模型和极少额外计算,区分简单与复杂输入。
- 通过一种新颖的成本感知目标函数,优化级联结构,以在预测准确率与计算成本之间取得平衡。
提出的方法
- 提出 IDK 级联作为通用框架,将预训练模型组合为级联结构,其中每个阶段可预测“我不知道”(IDK)以将输入传递至下一阶段。
- 采用轻量级、与架构无关的 IDK 分类器,通过预测置信度(按概率级联)或类别概率的熵(按熵级联)来估计不确定性。
- 采用基于搜索的方法,为每个级联阶段确定最优的不确定性阈值,以在保持准确率的同时最小化总体成本。
- 提出一种成本感知目标函数,将基础模型的实际 FLOPs 纳入其中,以在 IDK 分类器训练过程中平衡准确率与计算成本。
- 通过将快速模型部署在边缘设备、昂贵模型部署在云端的方式,支持边缘-云架构的部署,仅在需要时触发昂贵模型。
- 通过将人工专家作为级联中的最终模型,支持人机协同部署,实现接近完美的准确率,且人工干预极少。
实验结果
研究问题
- RQ1我们能否在不微调或访问模型架构的前提下,有效识别真实世界深度学习工作负载中的简单输入?
- RQ2如何设计一种级联系统,以在多样化输入下最小化计算成本,同时保持高预测准确率?
- RQ3在指导模型级联中输入路由时,置信度分数与熵哪个是更优的不确定性度量?
- RQ4将实际 FLOPs 纳入目标函数,与仅优化准确率相比,如何提升模型级联的效率?
- RQ5IDK 级联框架能否在自动驾驶等真实系统中实现最小化修改和高性能部署?
主要发现
- IDK 级联框架将昂贵模型调用次数减少了高达 80%,同时相比基线模型保持或略微提升准确率。
- 在 ImageNet 数据集上,该方法在保持 95% 的 top-1 准确率的同时,相比标准推理将推理成本降低了 70%。
- 在使用 Berkeley DeepDrive 数据集的自动驾驶任务中,该框架实现了 95.1% 的准确率,人工干预仅占 28.88%,显著降低了人工标注成本。
- 成本感知目标函数在高吞吐量场景下优于基于不确定性的目标函数,能更有效地平衡准确率与计算成本。
- 按熵级联在识别困难样本方面始终优于按概率级联,尤其在模型概率校准良好的情况下。
- 该框架可无缝集成至现有模型服务系统,仅需极少修改,且天然适配边缘-云部署模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。