QUICK REVIEW

[論文レビュー] Improved Techniques for Training Adaptive Deep Networks

Hao Li, Hong Zhang|arXiv (Cornell University)|Aug 17, 2019

Advanced Neural Network Applications参考文献 26被引用数 19

ひとこと要約

本稿では、複数の途中分類器を備えた適応的ディープネットワークの学習効率を向上させるために、勾配バランス（GE）、インラインサブネットワークコラボレーション（ISC）、ワンフォーオール知識蒸留（OFA）の3つの学習手法を提案する。これらの手法は学習を安定化させ、分類器間の協調を高め、CIFAR-10、CIFAR-100、ImageNetのあらゆるデータセットで一貫して精度と推論効率を向上させる。FLOP制約が同程度の状況下で、最先端モデルを6%以上上回る性能を達成する。

ABSTRACT

Adaptive inference is a promising technique to improve the computational efficiency of deep models at test time. In contrast to static models which use the same computation graph for all instances, adaptive networks can dynamically adjust their structure conditioned on each input. While existing research on adaptive inference mainly focuses on designing more advanced architectures, this paper investigates how to train such networks more effectively. Specifically, we consider a typical adaptive deep network with multiple intermediate classifiers. We present three techniques to improve its training efficacy from two aspects: 1) a Gradient Equilibrium algorithm to resolve the conflict of learning of different classifiers; 2) an Inline Subnetwork Collaboration approach and a One-for-all Knowledge Distillation algorithm to enhance the collaboration among classifiers. On multiple datasets (CIFAR-10, CIFAR-100 and ImageNet), we show that the proposed approach consistently leads to further improved efficiency on top of state-of-the-art adaptive deep networks.

研究の動機と目的

複数の途中分類器を備えた適応的ディープネットワークにおける、不安定で相互に矛盾する学習ダイナミクスの課題に対処すること。
マルチエグジットネットワークにおける分類器間の協調を向上させ、全体の性能を向上させること。
推論効率を損なわずに、多様なデータセットおよびモデルアーキテクチャに効果的な学習手法を開発すること。
勾配の流れを安定化させ、知識伝達を改善することで、適応的推論におけるより良い精度-速度トレードオフを実現すること。

提案手法

勾配バランス（GE）は、バックプロパゲーション中に勾配を再スケーリングすることで、ネットワーク全体で勾配の大きさを一定に保ち、分散を低減し、学習を安定化させる。
インラインサブネットワークコラボレーション（ISC）は、初期の分類器のログチットを事前分布として用い、後続の分類器をガイドすることで、エグジット間での一貫性と協調性を向上させる。
ワンフォーオール知識蒸留（OFA）は、最終分類器を教師とみなして、知識を初期の分類器に蒸留することで、それらの性能を向上させる。
これらの手法は、MSDNetなどのマルチエグジットアーキテクチャに適用され、入力の難易度に応じた動的かつ早期のエグジット推論を可能にする。
標準的なクロスエントロピー損失を用いた学習において、提案されたモジュールを残差ブロックに統合することで最適化を行う。
手法は、CIFAR-10、CIFAR-100、ImageNetで評価され、各構成要因の寄与を分離するためのアブレーションスタディが実施される。

実験結果

リサーチクエスチョン

RQ1適応的ネットワークにおける複数の分類器間の勾配競合を、学習中にどのように軽減できるか？
RQ2途中分類器間の協力は、適応的ディープネットワークの性能向上にどの程度寄与するか？
RQ3最終分類器からの知識蒸留は、推論コストを増加させることなく、初期のエグジットの精度を向上させることができるか？
RQ4提案手法は、異なるネットワークの深さやデータセットにおいて、どのようにスケーリングするか？

主な発見

提案手法は、ImageNetにおいて約1×10⁸ FLOPsの計算予算下で、ベースラインのMSDNetを6%以上上回る精度を達成する。
CIFAR-100では、段階2〜4においてトップ1精度が1%以上向上し、より深い層では1.4%以上の向上を達成する。
勾配バランスは学習を著しく安定化させ、全ネットワーク深さにおいて一貫して高い検証精度と低い損失をもたらす。
インラインサブネットワークコラボレーションは、信頼度ランクプロットにおけるクラスタの密度が高くなることで、エグジット間での信頼度順序の一貫性が向上することを示す。
ワンフォーオール知識蒸留は、初期の分類器に対して最大の精度向上をもたらし、最終分類器からの蒸留の有効性を確認する。
アブレーションスタディにより、GE、ISC、OFAの3要素すべてが、CIFAR-100およびImageNetの両方で肯定的かつ一貫した寄与を示すことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。