QUICK REVIEW

[論文レビュー] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Antti Tarvainen, Harri Valpola|arXiv (Cornell University)|Mar 6, 2017

Advanced Neural Network Applications被引用数 1,592

ひとこと要約

Mean Teacher：学習者モデルの重みをEMAで平均化して教師を作成し、一貫性ターゲットの質を高め、SVHN、CIFAR-10、ImageNetで半教師あり学習を改善するとともに、少ないラベル数での学習を可能にします。

ABSTRACT

The recently proposed Temporal Ensembling has achieved state-of-the-art results in several semi-supervised learning benchmarks. It maintains an exponential moving average of label predictions on each training example, and penalizes predictions that are inconsistent with this target. However, because the targets change only once per epoch, Temporal Ensembling becomes unwieldy when learning large datasets. To overcome this problem, we propose Mean Teacher, a method that averages model weights instead of label predictions. As an additional benefit, Mean Teacher improves test accuracy and enables training with fewer labels than Temporal Ensembling. Without changing the network architecture, Mean Teacher achieves an error rate of 4.35% on SVHN with 250 labels, outperforming Temporal Ensembling trained with 1000 labels. We also show that a good network architecture is crucial to performance. Combining Mean Teacher and Residual Networks, we improve the state of the art on CIFAR-10 with 4000 labels from 10.55% to 6.28%, and on ImageNet 2012 with 10% of the labels from 35.24% to 9.11%.

研究の動機と目的

半教師あり学習を動機付けるために、ラベルなしデータで予測の一貫性を強制する。
追加の訓練なしでターゲットを生成するウェイト平均型の教師（Mean Teacher）を提案する。
EMAで重みを加重したターゲットがTemporal EnsemblingやPiモデルより学習速度と精度を改善することを示す。
ResNet/Imagenetなどの現代的アーキテクチャへスケーラビリティを Demonstrate large datasets and modern architectures (ResNet/ImageNet).
Mean Teacherの頑健性と重要なハイパーパラメータを評価する。

提案手法

ノイズ下での学生出力と教師出力の間の期待二乗距離を一貫性コストJとして定義する。
ターゲット生成を置換：教師は学生のウェイトのEMAであり、各訓練ステップ後の更新を可能にする。
一貫性の重みのリампアップを用いたラベル付き分類損失と一貫性損失の組み合わせで訓練する。
13層ConvNetを用いてSVHNとCIFAR-10でラベル数の異なる場合にMean TeacherとPiモデルおよびTemporal Ensemblingを比較する。
ResNetアーキテクチャを用いてCIFAR-10とImageNetでMean Teacherのスケーラビリティを評価する。

実験結果

リサーチクエスチョン

RQ1モデルパラメータのウェイト平均化（Mean Teacher）は、ターゲット予測エンセmblesと比べて半教師あり学習を改善するか。
RQ2Mean Teacherは大規模データセットやオンライン学習にスケールし、ラベルなしデータを効率的に使用できるか。
RQ3ハイパーパラメータ（一貫性の重み、EMA減衰）は性能と訓練ダイナミクスにどのような影響を与えるか。
RQ4分類ターゲットと一貫性ターゲットの結合は効果に影響を与えるか。
RQ5ネットワークアーキテクチャがMean Teacherの性能に与える影響はどの程度か。

主な発見

Dataset	Labels	Model	Error（%）
SVHN	250 labels/73257 images	GAN	18.44±4.8
SVHN	250 labels/73257 images	Pi model	6.65±0.53
SVHN	250 labels/73257 images	Mean Teacher	4.35±0.50
SVHN	1000 labels/73257 images	Pi model	4.82±0.17
SVHN	1000 labels/73257 images	Mean Teacher	3.95±0.19
CIFAR-10	1000 labels/50000 images	Pi model	12.36±0.31
CIFAR-10	1000 labels/50000 images	Mean Teacher	21.55±1.48

Mean TeacherはSVHNとCIFAR-10の半教師あり設定においてPiモデルやTemporal Ensemblingよりテスト精度を改善する。
250ラベルのSVHNではMean Teacherは4.35%の誤差、Piモデルは6.65%、Temporal Ensemblingは5.12%。
CIFAR-10では1000/2000/4000ラベルでMean Teacherはそれぞれ12.31%、15.73%、12.31%の誤差を達成し、PiモデルおよびTemporal Ensemblingよりもいくつかの設定で上回る；4000ラベルの場合、Mean Teacherは12.31% vs 13.20%（Pi）と12.16%（Temporal Ensembling）。
ResNetアーキテクチャを用いたMean Teacherは強力な成果を示す：CIFAR-10 4000ラベルでMean Teacher＝6.28%の誤差；ImageNet 10%ラベルで検証誤差9.11%、以前の最先端を上回る。
Mean Teacherは大規模なラベルなしデータやオンライン学習へスケールし、ラベルなしデータはPiモデルよりもいくつかの場面で効率的に性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。