QUICK REVIEW

[論文レビュー] Ensemble Knowledge Distillation for Learning Improved and Efficient Networks

Umar Asif, Jianbin Tang|arXiv (Cornell University)|Sep 17, 2019

Advanced Neural Network Applications被引用数 27

ひとこと要約

本稿では、複数の高容量な教師ネットワークから知識を蒸留することで、コンactなマルチブランチ学生CNNを訓練するフレームワーク「アンサンブル知識蒸留（EKD）」を提案する。アンサンブル蒸留による多様な特徴表現の活用と、ブランチ出力をアンサンブル化することで、一般化性能と精度が向上し、CIFAR-10で3倍少ないパラメータと2.8倍少ないFLOPSで89.66%のトップ1精度を達成した。これは、限られた訓練データ下でも同様に成立する。

ABSTRACT

Ensemble models comprising of deep Convolutional Neural Networks (CNN) have shown significant improvements in model generalization but at the cost of large computation and memory requirements. In this paper, we present a framework for learning compact CNN models with improved classification performance and model generalization. For this, we propose a CNN architecture of a compact student model with parallel branches which are trained using ground truth labels and information from high capacity teacher networks in an ensemble learning fashion. Our framework provides two main benefits: i) Distilling knowledge from different teachers into the student network promotes heterogeneity in feature learning at different branches of the student network and enables the network to learn diverse solutions to the target problem. ii) Coupling the branches of the student network through ensembling encourages collaboration and improves the quality of the final predictions by reducing variance in the network outputs. Experiments on the well established CIFAR-10 and CIFAR-100 datasets show that our Ensemble Knowledge Distillation (EKD) improves classification accuracy and model generalization especially in situations with limited training data. Experiments also show that our EKD based compact networks outperform in terms of mean accuracy on the test datasets compared to state-of-the-art knowledge distillation based methods.

研究の動機と目的

推論コストを増加させずに、低データ環境下におけるコンパクトなCNNの一般化性能と精度を向上させること。
リソース制約のある環境における深層アンサンブルモデルの高い計算およびメモリ要件を緩和すること。
複数の異種教師ネットワークから知識を蒸留することで、コンパクトな学生ネットワークが多様で高レベルの特徴表現を学習できることを実現すること。
学生ネットワーク内の蒸留済みブランチをアンサンブル化することで、出力の分散を低減し、予測品質を向上させること。
真のラベルへの整合性と複数の教師からの特徴模倣を同時に最適化する訓練目的関数を構築すること。

提案手法

各ブランチが異なる高容量教師ネットワークから知識蒸留により学習するマルチブランチ学生CNNアーキテクチャを提案する。
真のラベルに対する交差エントロピー損失と、教師と学生の特徴マップ間の蒸留損失の両方を最小化する、新しい訓練目的関数を採用する。
推論時にブランチ出力のアンサンブル平均を用いることで、出力分散を低減し、耐障害性を向上させる。
各学生ブランチを異なる教師出力で訓練することで、特徴学習における多様性を導入し、多様な表現を促進する。
教師ネットワークのソフトラベルを用いた知識蒸留を実施し、特徴転送を改善するための温度スケーリングを適用する。
公平な比較のため、学生モデルとしてResNetベースのアーキテクチャ（例：ResNet8）を、教師としてより深いResNets（例：ResNet110）を用いる。

実験結果

リサーチクエスチョン

RQ1複数の多様な教師ネットワークからの知識蒸留は、コンパクトな学生ネットワークの一般化性能と精度を向上させることができるか？
RQ2学生ネットワーク内の並列ブランチの蒸留出力をアンサンブル化することで、予測分散が低減し、最終的な精度が向上するか？
RQ3標準的なKDや非蒸留モデルと比較して、限られた訓練データ下でのEKDの性能はいかがなものか？
RQ4大規模アンサンブルモデルと比較して、大幅にモデルサイズとFLOPSを削減した状態で、EKDは最先端の性能を達成できるか？
RQ5複数の教師からの蒸留は、学習された特徴埋め込みにおけるクラス分離性をどの程度向上させるか？

主な発見

7ブランチのResNet8を用いたEKDベースのモデルは、CIFAR-10で89.66%のトップ1精度を達成し、TAKD（88.01%）やMUTUAL（87.71%）を上回る性能を示した。
訓練データを10%に制限した状況でも、EKDベースのResNet8は、3倍少ないパラメータと2.8倍少ないFLOPSを用いてResNet110を上回る精度を達成した。
t-SNE可視化では、特に低データ条件下で、EKDモデルが非蒸留モデルよりも優れた分離性を持つクラス埋め込みを生成していることが示された。
アブレーションスタディの結果、マルチ教師蒸留とブランチのアンサンブルの両方が性能向上に顕著に寄与しており、組み合わせが最も優れた結果をもたらした。
提案された訓練目的関数は、ラベル整合性と特徴模倣の両方を効果的にバランスさせ、学生が複数の教師から多様で判別力のある表現を学習できるようにした。
フレームワークは低コストの推論を維持しながら一般化性能を著しく向上させたため、エッジやモバイルアプリケーションに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。