QUICK REVIEW

[論文レビュー] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Antti Tarvainen, Harri Valpola|arXiv (Cornell University)|Mar 6, 2017

Advanced Neural Network Applications参考文献 28被引用数 2,517

ひとこと要約

Mean Teacher は、整合性訓練のためにモデルの重みを平均化してより良い教師を作成し、Temporal Ensembling に比べて semi-supervised 学習の性能とスケーラビリティを向上させる。

ABSTRACT

The recently proposed Temporal Ensembling has achieved state-of-the-art results in several semi-supervised learning benchmarks. It maintains an exponential moving average of label predictions on each training example, and penalizes predictions that are inconsistent with this target. However, because the targets change only once per epoch, Temporal Ensembling becomes unwieldy when learning large datasets. To overcome this problem, we propose Mean Teacher, a method that averages model weights instead of label predictions. As an additional benefit, Mean Teacher improves test accuracy and enables training with fewer labels than Temporal Ensembling. Without changing the network architecture, Mean Teacher achieves an error rate of 4.35% on SVHN with 250 labels, outperforming Temporal Ensembling trained with 1000 labels. We also show that a good network architecture is crucial to performance. Combining Mean Teacher and Residual Networks, we improve the state of the art on CIFAR-10 with 4000 labels from 10.55% to 6.28%, and on ImageNet 2012 with 10% of the labels from 35.24% to 9.11%.

研究の動機と目的

より良いターゲット品質を通じて半教師あり学習におけるラベルなしデータの活用を改善する動機づけ。
重み平均化を利用してターゲットを生成する教師-生徒フレームワークの導入。
ネットワーク構造を変更せずに大規模データセットと現代的なアーキテクチャへのスケーラビリティを示す。

提案手法

Mean Teacher メソッドを定義する: 学習ステップごとに教師モデルを student 重みの指数移動平均 (EMA) として更新する。
教師を用いて unlabeled データの整合性ターゲットを生成する。整合性損失（通常は平均二乗誤差）として student と teacher の出力の間で算出。
ラベル付きデータの分類損失と、ラベルなしデータへの整合性損失を徐々に重みづけして組み合わせ、ラベル付きとラベルなしの寄与を調整。
重み平均化されたターゲットが予測に基づくターゲットよりもフィードバックが早く、表現も改善されることを示す（Temporal Ensembling のように予測に基づくターゲットと比較して）。
SVHN と CIFAR-10 に対して類似の ConvNet アーキテクチャを用いて Mean Teacher を Pi-model および Temporal Ensembling と比較し、Limited labels で CIFAR-10 および ImageNet で Residual Networks を用いたスケーラビリティを検証する。

実験結果

リサーチクエスチョン

RQ1半教師あり学習において、重み平均化された教師ターゲット（Mean Teacher）は予測平均化されたターゲット（Temporal Ensembling）を上回れるか？
RQ2少ないラベルとより大規模なデータセットで、重み平均化されたターゲットはより効率的な学習とより良い一般化を可能にするか？
RQ3Mean Teacher は半教師あり設定でネットワークアーキテクチャ（ConvNet vs. ResNet）とどう相互作用するか？
RQ4ハイパーパラメータ（整合性重み、EMA 減衰）とトレーニング戦略（分類と整合性の結合）が性能に与える影響は？
RQ5Mean Teacher はオンライン学習と大規模な未ラベルデータセットへのスケーリングに適合するか？

主な発見

Mean Teacher は Semi-supervised SVHN および CIFAR-10 で Pi-model および Temporal Ensembling よりテスト精度を向上させる。
250–1000 のラベル付き SVHN の例で、Mean Teacher は複数の設定で Temporal Ensembling および Pi-model より誤差率が低い。
CIFAR-10 で 4000 ラベルの場合、ConvNet を用いた Mean Teacher は 12.31% の誤り、ResNet アーキテクチャでは 6.28% へ低下； ImageNet で 10% ラベルでは Mean Teacher は検証誤差 9.11% を達成。
Mean Teacher は大規模データセットとオンライン学習へスケールし、未ラベルデータを効率的に活用して学習速度と最終精度をベースラインと比較して改善。
強力なネットワークアーキテクチャ（Shake-Shake 正則化を用いた ResNet）は Mean Teacher の性能をさらに高め、制限ラベル下で最先端の結果を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。