QUICK REVIEW

[论文解读] Zero Time Waste: Recycling Predictions in Early Exit Neural Networks

Maciej Wołczyk, Bartosz Wójcik|arXiv (Cornell University)|Jun 9, 2021

Machine Learning and Data Classification参考文献 40被引用 30

一句话总结

引入 Zero Time Waste（ZTW），一个早停框架，通过级联连接和集成复用先前内部分类器的预测，在推理过程中减少无谓计算，同时改进准确率与时间的权衡。

ABSTRACT

The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.

研究动机与目标

激励通过利用从更早的内部分类器回收的信息来减少神经网络推理浪费。
提出一个零浪费框架，将级联连接与集成方法连接起来，以重用以往的预测。
展示在标准分类器和强化学习设置下，准确性与推理时间权衡的改进。
用一个新度量（事后改进性/Hindsight Improvability）量化信息复用，并给出消融研究以理解影响因素。

提出的方法

将 M 个浅层内部分类器（IC）附着到预训练网络的中间层，而不改变基参数。
使用级联连接通过跳跃连接将早期 IC 的 logits 传递给后续 IC，使后续 IC 能够改进先前的预测。
使用带类别平衡的加权几何平均构建 IC 输出的集合，为每个 IC 形成最终预测，并训练权重以最小化交叉熵。
同时训练 ICs 及其级联输入，并在较晚的损失对较早的 IC 的梯度传播时停止梯度，以保持早期层的表征。
推理时，当当前 IC 的集合置信度超过阈值 τ 时提前结束，以在准确性和计算之间取得平衡。
提供一个训练算法（算法 1），用于联合级联和几何-集成训练。

实验结果

研究问题

RQ1是否可以在不重新训练基础网络的情况下，有效复用早期 IC 的信息来改进后续 IC？
RQ2级联连接与几何集成的组合在不同数据集和架构上是否能在保持或提升准确性的同时降低计算浪费？
RQ3ZTW 在监督学习与强化学习设置中的表现如何？
RQ4相较于 SDN 和 PBEE，信息复用对效率与准确性权衡的影响是什么？

主要发现

ZTW 在 CIFAR-10/100、Tiny ImageNet、ImageNet 等多种架构下，在推理时间权衡上的准确性优于 SDN 和 PBEE。
通过级联连接复用以往 IC 信息主要提升早期 IC 的性能，而集成则提升后期 IC 的性能。
ZTW 在降低计算量的同时保持基础网络的准确性，在某些设置甚至超过基线网络。
在强化学习中，ZTW 通过基于置信度的提前退出来降低计算，同时在 Atari2600 环境中保持策略性能。
提出的“事后改进性”度量展示了来自 past 信息复用的潜在准确性提升量，ZTW 在该指标上优于独立 IC 基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。