QUICK REVIEW

[論文レビュー] Deep Mutual Learning

Ying Zhang, Tao Xiang|arXiv (Cornell University)|Jun 1, 2017

Video Surveillance and Tracking Methods参考文献 9被引用数 47

ひとこと要約

本稿では、事前に学習された教師ネットワークに依存せず、複数の学生ネットワークがリアルタイムでソフトラベル蒸留を用いてお互いに教え合い学ぶ協調的トレーニング戦略、Deep Mutual Learning (DML) を提案する。この手法は、相互確率マッチングによる高い事後分布エントロピーとより平坦な最小値の促進により、従来の蒸留法や独立学習を上回る一般化性能と性能を達成する。強力な静的教師から蒸留されたモデルでさえも上回る。

ABSTRACT

Model distillation is an effective and widely used technique to transfer knowledge from a teacher to a student network. The typical application is to transfer from a powerful large network or ensemble to a small network, that is better suited to low-memory or fast execution requirements. In this paper, we present a deep mutual learning (DML) strategy where, rather than one way transfer between a static pre-defined teacher and a student, an ensemble of students learn collaboratively and teach each other throughout the training process. Our experiments show that a variety of network architectures benefit from mutual learning and achieve compelling results on CIFAR-100 recognition and Market-1501 person re-identification benchmarks. Surprisingly, it is revealed that no prior powerful teacher network is necessary -- mutual learning of a collection of simple student networks works, and moreover outperforms distillation from a more powerful yet static teacher.

研究の動機と目的

モデル蒸留の限界、すなわち利用可能でないか最適でない可能性のある事前に学習された強力な教師ネットワークに依存する点を是正すること。
静的教師が存在しない状況でも、未学習の学生ネットワーク同士の協調的学習が一般化性能と性能を向上させられるかを検討すること。
同僚間での相互蒸留が、従来の蒸留法や独立学習よりも優れたモデルを生み出せるかを調査すること。
相互学習が損失関数の地形においてより平坦で頑健な最小値をもたらすメカニズムを分析すること。

提案手法

各学生ネットワークは、真のラベルを用いた標準的な交差エントロピー損失と、同僚ネットワークの予測クラス確率と一致させるための模倣損失の2つの損失関数で訓練される。
模倣損失は、同僚ネットワークからのソフトラベルを用いて計算され、各学生が同僚の信頼性分布、すなわち二次的（真のラベルでない）クラス確率を含む確率分布に一致するよう促進される。
本手法は、同じ構造（ホモジニアス）および異なる構造（ヘテロジニアス）のネットワーク、特に大規模と小規模のネットワークの組み合わせに対しても対応可能である。
DML_e と呼ばれる代替バージョンでは、個々の同僚ネットワークではなく、同僚ネットワークのアンサンブルを教示信号として用いるが、標準的な DML よりも性能が劣る。
CIFAR-100 や Market-1501 といった複数のアーキテクチャとデータセットに本手法を適用し、一貫した性能向上が得られた。
理論的分析により、DML の成功は、より高い事後分布エントロピーとより平坦な最小値の促進に起因し、一般化性能の向上に寄与することが示された。

実験結果

リサーチクエスチョン

RQ1未学習で単純な学生ネットワークの集団が、強力な事前に学習された教師ネットワークからの蒸留モデルを上回ることができるか？
RQ2同僚間での相互学習が、独立学習や標準的な蒸留法よりも優れた一般化性能をもたらすか？
RQ3強い教師が存在せず、ランダム初期化から出発するにもかかわらず、なぜ相互学習が性能向上をもたらすのか？
RQ4相互蒸留が損失関数の地形において、なぜより平坦で頑健な最小値を生み出すのか？
RQ5性能向上は、協働ネットワークの数に依存するか？また、異種のアーキテクチャも利益を受けるか？

主な発見

DML で訓練されたモデルは、Market-1501 で mAP 85.6%（5つの MobileNet を用いた場合）を達成し、強力な教師からの蒸留モデルや独立学習モデルを上回る。
CIFAR-100 における DML モデルの事後分布エントロピーは 1.7099 であり、独立学習モデルの 0.2602 より顕著に高い。これは、より分散され、頑健な確率推定を示している。
DML モデルは、パラメータの摂動に対してより頑健であり、ガウスノイズを追加した後も訓練損失の増加がわずかに抑えられ、平坦な最小値を示している。
ResNet-32 といった大規模ネットワークでも、相互学習により、独立学習バージョンを上回る性能を示し、CIFAR-100 および Market-1501 で優れた結果を得た。
DML で訓練されたモデルのアンサンブルは、個々のモデルよりも高い性能を達成しており、強力なアンサンブル能力を示している。
DML_e はアンサンブルを教示信号として用いるが、標準的な DML よりも性能が劣る。これは、個々の同僚からの信号がアンサンブル信号よりも一般化を促進する上で効果的であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。