Skip to main content
QUICK REVIEW

[論文レビュー] Knowledge Distillation by On-the-Fly Native Ensemble

Lan Xu, Xiatian Zhu|arXiv (Cornell University)|Jun 12, 2018
Advanced Neural Network Applications参考文献 19被引用数 271
ひとこと要約

ONE は複数分岐を持つ単一のネットワークを訓練し、分岐からその場の教師を作り出してオンライン蒸留を実行する。これにより、追加のテスト時コストをかけずに汎化性能を向上させる。

ABSTRACT

Knowledge distillation is effective to train small and generalisable network models for meeting the low-memory and fast running requirements. Existing offline distillation methods rely on a strong pre-trained teacher, which enables favourable knowledge discovery and transfer but requires a complex two-phase training procedure. Online counterparts address this limitation at the price of lacking a highcapacity teacher. In this work, we present an On-the-fly Native Ensemble (ONE) strategy for one-stage online distillation. Specifically, ONE trains only a single multi-branch network while simultaneously establishing a strong teacher on-the- fly to enhance the learning of target network. Extensive evaluations show that ONE improves the generalisation performance a variety of deep neural networks more significantly than alternative methods on four image classification dataset: CIFAR10, CIFAR100, SVHN, and ImageNet, whilst having the computational efficiency advantages.

研究の動機と目的

  • 低メモリ・高速実行制約下で一般化性能の高いコンパクトなモデルを動機付ける。
  • 訓練中に強力な場の教師を構築して、別個の事前学習済み教師の必要性を排除する。
  • 単一の訓練フェーズ内でオンライン蒸留を通じてターゲットネットワークの性能を向上させる。
  • 標準的な画像分類ベンチマーク全体で効率と一般化を示す。

提案手法

  • ターゲットネットワークに、低レベル層を共有するm個の補助分岐を追加する。
  • ゲーティング構成要素を介して分岐をアンサンブルして、その場のONE教師を構築する。
  • 各分岐を、真のラベルのクロスエントロピー損失と ONE 教師からの蒸留損失で訓練する。
  • 学習を導くため、分岐(両方)の温度Tを用いて、教師とともにソフトターゲットを計算する。
  • クロスエントロピーとKL発散を、適切にT^2でスケーリングして組み合わせた閉ループ知識蒸留目的を用いる。
  • 推論時には補助分岐を削除して元の単一分岐モデルを復元し、同じテストコストを維持する。必要に応じて ONE-E としてアンサンブルで運用することも可能。

実験結果

リサーチクエスチョン

  • RQ1場のONE教師を用いたオンライン蒸留は、容量の異なるネットワークの一般化を向上させることができるか?
  • RQ2多分岐の単一モデル設計は、オフラインの教師-生徒蒸留やオンラインの同輩教師法と比べて競争力のある、あるいは優れた性能を提供するか?
  • RQ3ゲーティングに基づく分岐アンサンブルが教師の質と下流の生徒学習に与える影響は?
  • RQ4ONEは大規模データ(例:ImageNet)における訓練コスト、テストコスト、スケーラビリティにどのような影響を与えるか?

主な発見

  • ONEはCIFAR-10/100、SVHN、ImageNetの複数のバックボーンに対して一般化を向上させる。
  • 小型モデルは、 ONE からより大きな相対的改善を得る。
  • ONEでの訓練は、オフラインの教師やマルチネットワークのオンライン手法よりコストが低く、競争力のあるまたはより良い精度を達成する。
  • ONE教師は蒸留の恩恵を受け、ターゲットモデルは訓練を重ねるにつれて教師の性能に近づく。
  • ゲーティングによるアンサンブル(ONE-E)は、比較された構成の中で最も良いテスト性能を、コストのトレードオフを有利にしつつ達成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。