[論文レビュー] Zero Time Waste: Recycling Predictions in Early Exit Neural Networks
Zero Time Waste (ZTW) を導入する。以前の内部分類器からの予測をカスケード接続とアンサンブルで再利用し、推論時の無駄な計算を減らすことで、精度と時間のトレードオフを改善する早期終了フレームワーク。
The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.
研究の動機と目的
- 初期の内部分類器から再利用できる情報を活用してニューラルネットワーク推論の無駄を削減する動機付け。
- カスケード接続とアンサンブル法を連結させ、過去の予測を再利用するゼロウェイストフレームワークを提案。
- 従来の分類器および強化学習設定における推論時間のトレードオフで精度を改善を示す。
- 新しい指標(Hindsight Improvability)を用いて情報再利用による情報量を定量化し、寄与要因を理解するアブレーションを提供。
提案手法
- 事前学習済みネットワークの基礎パラメータを変更せずに、中間層にShallowな内部分類器(ICs)を追加する。
- カスケード接続を用いて、初期ICからのロジットを後続ICへスキップ接続を通じて渡し、後続ICが以前の予測を洗練できるようにする。
- 各ICの出力を、クラス平衡を用いた加重幾何平均で構成し、最終予測を作成。クロスエントロピーを最小化するよう重みを訓練。
- ICをカスケード入力とともに並列訓練し、後方の損失から前方ICへの勾配を停止して初期層表現を保持。
- 推論時には、現在のICのアンサンブル信頼度が閾値τを超えた時点で早期終了し、精度と計算量のバランスをとる。
- ジョイントカスケードと幾何平均アンサンブル訓練のアルゴリズム(Algorithm 1)を提供。
実験結果
リサーチクエスチョン
- RQ1基礎ネットワークを再訓練せずに、以前のICからの情報を効果的に再利用して後のICを改善できるか。
- RQ2カスケード接続と幾何アンサンブルの組み合わせが、データセットとアーキテクチャを問わず計算の無駄を減らし、精度を維持または向上させるか。
- RQ3ZTWは教師あり学習と強化学習設定でどう機能するか。
- RQ4情報再利用が SDN および PBEE と比較して効率-精度トレードオフに与える影響は。
主な発見
- ZTWは CIFAR-10/100、Tiny ImageNet、ImageNet で複数アーキテクチャにおいて推論時間のトレードオフでSDNおよびPBEEを上回る精度を達成。
- カスケード接続による過去のIC情報の再利用は主に初期ICの性能を向上させ、アンサンブルは後半のICの性能を改善。
- ZTWは計算量を削減した状態で基盤ネットワークの精度を維持し、場合によっては基盤ネットワークを超える。
- RLでは、ZTWは信頼度ベースの早期終了により計算を削減しつつ、Atari 2600環境でポリシーの性能を維持。
- 提案された Hindsight Improvability 指標は、過去情報再利用による潜在的な精度向上の量を示し、ZTWはこの指標で独立ICベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。