[論文レビュー] Anytime Neural Network: a Versatile Trade-off Between Computation and Accuracy
本稿では、計算コストの異なるさまざまな予算レベルで継続的に出力を改善できるように、補助予測を深層ニューラルネットワークに統合するAnytime Neural Networks (ANNs) を提案する。トレーニング中に損失重みを振動させることで、これらの補助ヘッドを同時に最適化することで、最小限の追加計算量で最先端のAnytime性能を達成し、最終的な精度を維持しながら、任意の予算レベルで早期終了を可能にする。
Anytime predictors first produce crude results quickly, and then continuously refine them until the test-time computational budget is depleted. Such predictors are used in real-time vision systems and streaming-data processing to efficiently utilize varying test-time budgets, and to reduce average prediction cost via early-exits. However, anytime prediction algorithms have difficulties utilizing the accurate predictions of deep neural networks (DNNs), because DNNs are often computationally expensive without competitive intermediate results. In this work, we propose to add auxiliary predictions in DNNs to generate anytime predictions, and optimize these predictions simultaneously by minimizing a carefully constructed weighted sum of losses, where the weights also oscillate during training. The proposed anytime neural networks (ANNs) produce reasonable anytime predictions without sacrificing the final performance or incurring noticeable extra computation. This enables us to assemble a sequence of exponentially deepening ANNs, and it achieves, both theoretically and practically, near-optimal anytime predictions at every budget after spending a constant fraction of extra cost. The proposed methods are shown to produce anytime predictions at the state-of-the-art level on visual recognition data-sets, including ILSVRC2012.
研究の動機と目的
- 深層ニューラルネットワークが通常中間出力の正確さを欠くという課題に対処すること。
- 動的計算制約下で段階的に洗練された予測を実行できるリアルタイムシステムを可能にすること。
- 最終モデルの精度を維持しながら、早期終了のための補助ヘッドを導入しても顕著な計算オーバーヘッドを発生させないこと。
- 損失重みを振動させる独自のトレーニング戦略により、あらゆる予算レベルでほぼ最適なAnytime性能を達成すること。
提案手法
- 深層ニューラルネットワークの異なる深さに複数の補助分類ヘッドを統合し、中間予測を生成する。
- 損失の重み付き和を最小化することで、すべてのヘッドを同時に最適化するが、トレーニング中に重みを振動させ、初期予測と最終予測のバランスを取る。
- 初期ヘッドと最終ヘッドの両方の精度を向上させるために、動的損失重み付け戦略を採用し、初期と最終の両方の予測を強化する。
- 各ネットワークが前のものに基づいて構築される指数関数的に深くなるANNの系列を構築する。これにより、Anytime予測の能力が拡張される。
- すべての段階での正確さをバランスさせる複合損失関数を用いて、エンドツーエンドでネットワークをトレーニングし、最終性能の劣化を防ぐ。
- 深層ネットワークの構造を活用して、追加計算を最小限に抑えながら、任意の段階で早期終了を可能にする。
実験結果
リサーチクエスチョン
- RQ1補助ヘッドを深層ニューラルネットワークに効果的に統合することで、最終精度を損なわずにAnytime予測を可能にすることができるか?
- RQ2トレーニングをどのように設計すれば、初期予測と最終予測を同時に最適化し、早期終了を支援できるか?
- RQ3DNNにおけるAnytime予測の計算コストはどの程度で、それを最小限に抑えることができるか?
- RQ4提案手法は、あらゆる予算レベルでほぼ最適なAnytime性能を達成できるか?
- RQ5標準的なビジョンベンチマークにおいて、従来のAnytime予測手法と比較して、本手法はどのように差をつけるか?
主な発見
- 提案されたANNsは、ILSVRC2012およびその他の視覚認識データセットで最先端のAnytime予測性能を達成した。
- 標準DNNと比較して、追加計算量は定数倍にとどまり、効率的なAnytime推論を可能にした。
- トレーニング中に損失重みを振動させることで、最終精度を損なわずに中間予測の品質が著しく向上した。
- 指数関数的に深くなるネットワークの系列を構築できるフレームワークにより、あらゆる予算レベルでほぼ最適なAnytime性能が実現された。
- 高い信頼性をもって任意の段階で早期終了が可能となり、ストリーミングおよびリアルタイムシステムにおける平均予測コストが削減された。
- 実験的結果から、補助ヘッドが、計算制約が厳しい状況下でも、すべての段階で妥当な予測を提供することが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。