QUICK REVIEW

[論文レビュー] Collaborative Learning for Deep Neural Networks

Guocong Song, Wei Koong Chai|arXiv (Cornell University)|May 30, 2018

Advanced Neural Network Applications参考文献 4被引用数 102

ひとこと要約

協調学習は、同じネットワークの複数の分類子ヘッドを同じデータ上で並行して訓練し、コンセンサスと層間表現共有を用いて、推論グラフを変更せずに一般化性能とラベルノイズ耐性を向上させる。

ABSTRACT

We introduce collaborative learning in which multiple classifier heads of the same network are simultaneously trained on the same training data to improve generalization and robustness to label noise with no extra inference cost. It acquires the strengths from auxiliary training, multi-task learning and knowledge distillation. There are two important mechanisms involved in collaborative learning. First, the consensus of multiple views from different classifier heads on the same example provides supplementary information as well as regularization to each classifier, thereby improving generalization. Second, intermediate-level representation (ILR) sharing with backpropagation rescaling aggregates the gradient flows from all heads, which not only reduces training computational complexity, but also facilitates supervision to the shared layers. The empirical results on CIFAR and ImageNet datasets demonstrate that deep neural networks learned as a group in a collaborative way significantly reduce the generalization error and increase the robustness to label noise.

研究の動機と目的

追加の推論コストをかけずに、一般化性能と頑健性を向上させる動機付け。
中間表現を共有する複数のヘッドを追加する訓練フレームワークを提案する。
コンセンサス予測（ソフトラベル）と逆伝播のリスケーリングを活用して訓練を安定化する。
CIFARおよびImageNetで評価し、精度向上とラベルノイズに対する頑健性を示す。

提案手法

共有中間表現を持つ訓練グラフに複数の分類ヘッドを追加する。
ハードな地教師データ損失と仲間ヘッドからのソフトコンセンサス損失を結合した結合損失を定義する。
総損失で全てのヘッドを同時に最適化するSGDを用い、ヘッド間の勾配を安定化させるILR逆伝播リスケーリングを追加する。
ハード監督とソフト監督のバランスを取るため、温度スケーリングされたソフトラベルを取り入れる（betaおよびTパラメータ）。
ILR共有パターン（単純および階層的）を示し、メモリと訓練時間を削減しつつ精度を向上させる。
CIFAR-10/ResNet-DenseNet系とImageNetのResNet-50で評価し、ベースラインおよび蒸留法と比較する。

実験結果

リサーチクエスチョン

RQ1協調学習は推論コストを増やさずに一般化を改善するか？
RQ2ILR共有と逆伝播リスケーリングは訓練の安定性と勾配フローにどう影響するか？
RQ3標準的な訓練および蒸留法と比較して、ラベルノイズに対してこの手法は頑健か？
RQ4ヘッド数の増加と異なるILR共有パターンが性能に与える影響は何か？
RQ5大規模データセットで、協調学習は蒸留法とラベル平滑化とどう比較されるか？

主な発見

	ResNet-32	ResNet-110	DenseNet-40-12
個別学習 \| 単一インスタンス	6.66 ± 0.21	5.56 ± 0.16	5.26 ± 0.08
ラベル平滑化（0.05）	6.83 ± 0.14	5.66 ± 0.08	5.40 ± 0.04
協調学習 \| 2インスタンス	6.19 ± 0.17	5.21 ± 0.14	5.11 ± 0.15
協調学習 \| 4インスタンス	6.16 ± 0.17	5.16 ± 0.13	5.00 ± 0.05
2 ヘッドと単純 ILR 共有	5.97 ± 0.07	5.15 ± 0.14	5.04 ± 0.10
4 ヘッドと階層的 ILR 共有	5.86 ± 0.13	4.98 ± 0.12	4.86 ± 0.12

協調学習は、単一インスタンスのベースラインと比較して CIFAR-10 の ResNet-32、ResNet-110、DenseNet-40-12 の一般化誤差を一貫して低減する。
ヘッド数を増やし、ILR共有（特に階層的ILR）を用いると CIFAR-10 でさらに精度が向上する。
同時最適化は、精度と速度の両方で他のヘッド単位最適化より優れている。
逆伝播リスケーリングは共有層の勾配フローを安定化させ、精度を向上させ、スケーリングなしや損失スケーリングよりも優れている。
ImageNet では、2つまたは4つのヘッドとILR共有を組み合わせた協調学習は、トップ1誤りをベースラインの23.47%から、それぞれ22.70%（2ヘッド・単純ILR）および22.29%（4ヘッド・階層ILR）に低減し、トレーニング時間とメモリのトレードオフも有利である。
協調学習はラベルノイズに対して頑健性を示し、ノイズレベルが高いほどより大きな利得がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。