QUICK REVIEW

[論文レビュー] Distilling the Knowledge in a Neural Network

Geoffrey E. Hinton, Oriol Vinyals|arXiv (Cornell University)|Mar 9, 2015

Neural Networks and Applications参考文献 9被引用数 13,896

ひとこと要約

本論文は、ソフトターゲットを用いた蒸留を通じて、巨大なアンサンブルや高度に正則化されたネットワークから単一の小さなモデルへ知識を転移させ、MNIST、音声認識、そして大規模画像データセットで顕著な性能向上を達成する方法を示している。

ABSTRACT

A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome and may be too computationally expensive to allow deployment to a large number of users, especially if the individual models are large neural nets. Caruana and his collaborators have shown that it is possible to compress the knowledge in an ensemble into a single model which is much easier to deploy and we develop this approach further using a different compression technique. We achieve some surprising results on MNIST and we show that we can significantly improve the acoustic model of a heavily used commercial system by distilling the knowledge in an ensemble of models into a single model. We also introduce a new type of ensemble composed of one or more full models and many specialist models which learn to distinguish fine-grained classes that the full models confuse. Unlike a mixture of experts, these specialist models can be trained rapidly and in parallel.

研究の動機と目的

限られた待機遅延とリソースで正確なモデルを展開する必要性を、アンサンブルまたは大規模モデルの学習を活用して説明する。
ソフトターゲットを用いて、厄介なモデルから小さなモデルへ一般化を転送する蒸留フレームワークを導入する。
MNIST、音声認識、および専門家アンサンブルを用いた大規模画像データセットで、蒸留の実用的な利点を示す。

提案手法

ソフトターゲットを定義するために、softmaxの温度 T を上げて出力分布をより滑らかにする。
厄介なモデルが生成するソフトターゲットで蒸留モデルを学習し、ハードターゲットと重み付け付きの目的関数で組み合わせる。
高い T におけるロジットの一致は蒸留の特殊なケースであり、勾配スケーリングを T で議論する（勾配は ~1/T^2）。
ラベルが付いている場合は、ソフトターゲットとハードターゲットの損失を適切な重み付けとスケールで混合する。
一般主と、混同しやすいクラスのサブセットで訓練された専門家モデルのアンサンブルを提案し、過学習を避けるためにダストビンの調整でバランスを取る。

実験結果

リサーチクエスチョン

RQ1小さなモデルは、ソフトターゲットを通じて大規模アンサンブルの一般化挙動を学べるのか？
RQ2知識移転を最大化するために、蒸留をどのように構成すべきか（温度、損失の重み付け）？
RQ3専門家アンサンブルを用いたMNIST、音声認識、および超大規模データセットに蒸留を適用した場合の利得は？
RQ4ロジットの一致は蒸留の特殊ケースか？温度はロジットが伝える情報量にどう影響するか？
RQ5非常に大きなラベル空間に対する専門家アンサンブルとその蒸留はどれだけ効果的か？

主な発見

System	Test Frame Accuracy	WER
Baseline	58.9%	10.9%
10xEnsemble	61.1%	10.7%
Distilled Single model	60.8%	10.7%

蒸留を用いたソフトターゲットは、MNISTで小さなネットワークをハードターゲットのみの場合の146エラーから74エラーへと著しく改善し、大規模モデルの性能に近づける。
音声認識では、蒸留された単一モデルが10モデルのアンサンブルと同様の利得を達成し、ベースラインのフレーム精度が58.9%、WERが10.9%であったのに対し、蒸留後は60.8%のフレーム精度と10.7%のWER。
蒸留はアンサンブルの多くの利得を単一モデルへ転送する；ASRでは蒸留モデルがアンサンブル改善の80%以上を捕捉。
JFTデータセットでは、一般主と61の専門家モデルの組み合わせにより、ベースライン比でトップ1精度が4.4%相対改善。
専門家は混同可能なサブセットで独立して訓練でき、蒸留時には高い訓練コストを伴わずに利益を維持できる。
ソフトターゲットは強力な正則化効果を持ち、非常に小さい転送データ量（ASR風設定でデータの3%程度）でも良好な一般化を実現することができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。