QUICK REVIEW

[論文レビュー] Zero Time Waste: Recycling Predictions in Early Exit Neural Networks

Maciej Wołczyk, Bartosz Wójcik|arXiv (Cornell University)|Jun 9, 2021

Machine Learning and Data Classification参考文献 40被引用数 30

ひとこと要約

Zero Time Waste (ZTW) を導入する。以前の内部分類器からの予測をカスケード接続とアンサンブルで再利用し、推論時の無駄な計算を減らすことで、精度と時間のトレードオフを改善する早期終了フレームワーク。

ABSTRACT

The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.

研究の動機と目的

初期の内部分類器から再利用できる情報を活用してニューラルネットワーク推論の無駄を削減する動機付け。
カスケード接続とアンサンブル法を連結させ、過去の予測を再利用するゼロウェイストフレームワークを提案。
従来の分類器および強化学習設定における推論時間のトレードオフで精度を改善を示す。
新しい指標（Hindsight Improvability）を用いて情報再利用による情報量を定量化し、寄与要因を理解するアブレーションを提供。

提案手法

事前学習済みネットワークの基礎パラメータを変更せずに、中間層にShallowな内部分類器（ICs）を追加する。
カスケード接続を用いて、初期ICからのロジットを後続ICへスキップ接続を通じて渡し、後続ICが以前の予測を洗練できるようにする。
各ICの出力を、クラス平衡を用いた加重幾何平均で構成し、最終予測を作成。クロスエントロピーを最小化するよう重みを訓練。
ICをカスケード入力とともに並列訓練し、後方の損失から前方ICへの勾配を停止して初期層表現を保持。
推論時には、現在のICのアンサンブル信頼度が閾値τを超えた時点で早期終了し、精度と計算量のバランスをとる。
ジョイントカスケードと幾何平均アンサンブル訓練のアルゴリズム（Algorithm 1）を提供。

実験結果

リサーチクエスチョン

RQ1基礎ネットワークを再訓練せずに、以前のICからの情報を効果的に再利用して後のICを改善できるか。
RQ2カスケード接続と幾何アンサンブルの組み合わせが、データセットとアーキテクチャを問わず計算の無駄を減らし、精度を維持または向上させるか。
RQ3ZTWは教師あり学習と強化学習設定でどう機能するか。
RQ4情報再利用が SDN および PBEE と比較して効率-精度トレードオフに与える影響は。

主な発見

ZTWは CIFAR-10/100、Tiny ImageNet、ImageNet で複数アーキテクチャにおいて推論時間のトレードオフでSDNおよびPBEEを上回る精度を達成。
カスケード接続による過去のIC情報の再利用は主に初期ICの性能を向上させ、アンサンブルは後半のICの性能を改善。
ZTWは計算量を削減した状態で基盤ネットワークの精度を維持し、場合によっては基盤ネットワークを超える。
RLでは、ZTWは信頼度ベースの早期終了により計算を削減しつつ、Atari 2600環境でポリシーの性能を維持。
提案された Hindsight Improvability 指標は、過去情報再利用による潜在的な精度向上の量を示し、ZTWはこの指標で独立ICベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。