Skip to main content
QUICK REVIEW

[論文レビュー] Improving Consistency-Based Semi-Supervised Learning with Weight Averaging.

Ben Athiwaratkun, Marc Finzi|arXiv (Cornell University)|Jun 14, 2018
Domain Adaptation and Few-Shot Learning参考文献 36被引用数 28
ひとこと要約

本論文は、確信度ベースの半教師あり学習を向上させるために、確率的勾配降下(SGD)の軌道に沿ってモデル重みを平均化するStochastic Weight Averaging(SWA)およびその高速版(fast-SWA)を提案する。これにより、より平坦で一般化性の高い最適解が得られる。本手法は、ラベル付きデータが4,000例のみのCIFAR-10で95.0%の精度を達成し、CIFAR-10からSTLへのドメイン適応でも83%の精度を記録するなど、最先端の結果を達成した。

ABSTRACT

Recent advances in deep unsupervised learning have renewed interest in semi-supervised methods, which can learn from both labeled and unlabeled data. Presently the most successful approaches to semi-supervised learning are based on consistency regularization, whereby a model is trained to be robust to small perturbations of its inputs and parameters. We show that consistency regularization leads to flatter but narrower optima. We also show that the test error surface for these methods is approximately convex in regions of weight space traversed by SGD. Inspired by these observations, we propose to train consistency based semi-supervised models with stochastic weight averaging (SWA), a recent method which averages weights along the trajectory of SGD. We also develop fast-SWA, which further accelerates convergence by averaging multiple points within each cycle of a cyclical learning rate schedule. With fast-SWA we achieve the best known semi-supervised results on CIFAR-10 and CIFAR-100 over many different numbers of observed training labels. For example, we achieve 95.0% accuracy on CIFAR-10 with only 4000 labels, compared to the previous best result in the literature of 93.7%. We also improve the best known accuracy for domain adaptation from CIFAR-10 to STL from 80% to 83%. Finally, we show that with fast-SWA the simple $\Pi$ model becomes state-of-the-art for large labeled settings.

研究の動機と目的

  • 確信度ベースの半教師あり学習手法の一般化性能およびロバスト性を向上させること。
  • 確信度学習における鋭い狭い極小値の問題を、重み平均化によってより平坦な最適解を見つけることで解決すること。
  • 周期的学習率スケジュールと組み合わせてfast-SWAを用いることで、収束を加速し、性能を向上させること。
  • さまざまなラベル予算を想定したCIFAR-10およびCIFAR-100における半教師あり学習の新しい最先端性能を確立すること。
  • fast-SWAが、ラベル付きデータが豊富な環境下でも単純なΠモデルを競争力のあるものにできるかどうかを実証すること。

提案手法

  • 確率的勾配降下(SGD)の軌道に沿ってモデル重みを平均化するStochastic Weight Averaging(SWA)を適用し、より平坦で一般化性の高い最適解を促進する。
  • 周期的学習率スケジュールの各サイクル内で複数の重みポイントを平均化することで、SWAの処理を高速化するfast-SWAを導入する。
  • 入力およびパラメータの摂動に対してモデルがロバストになるようにするため、一貫性正則化を用い、半教師あり学習の基本枠組みを構築する。
  • 周期的学習率を用いたSGDでモデルを学習し、各サイクルの終了時にfast-SWAを用いて重みを定期的に平均化する。
  • 損失の地形を分析し、SGDが通過する領域においてテスト誤差の表面が概ね凸的であることを示し、重み平均化の有効性を裏付ける。
  • CIFAR-10、CIFAR-100、CIFAR-10からSTLへのドメイン適応を含む、標準的な半教師あり学習ベンチマークに本手法を適用する。

実験結果

リサーチクエスチョン

  • RQ1重み平均化は、確信度ベースの半教師あり学習モデルの一般化性能を向上させることができるか?
  • RQ2fast-SWAは、半教師あり設定において性能を維持または向上させつつ収束を加速させることができるか?
  • RQ3一貫性正則化付きモデルの重み空間における損失の地形はどのように振る舞い、SWAの適用を支持するか?
  • RQ4fast-SWAは、ラベル付きデータが豊富な半教師あり学習の状況下でも、Πモデルを競争力のあるものにできるか?
  • RQ5fast-SWAを用いることで、CIFAR-10やCIFAR-100といった標準ベンチマークで、最小限のラベル付きデータでどの程度の性能向上が達成できるか?

主な発見

  • fast-SWAは、ラベル付きデータが4,000例のみのCIFAR-10で95.0%の精度を達成し、前回の最先端(SOTA)の93.7%を上回った。
  • 本手法により、CIFAR-10からSTLへのドメイン適応の精度は80%から83%に向上した。
  • 一貫性正則化付きモデルのテスト誤差表面は、SGDが通過する領域で概ね凸的であることが示され、重み平均化の有効性が裏付けられた。
  • 一貫性正則化は、平坦ではあるが狭い極小値を生成する傾向があるが、これに対してSWAおよびfast-SWAが効果的に緩和した。
  • fast-SWAを用いることで、単純なΠモデルがラベル付きデータが豊富な半教師あり学習の文脈で最先端の性能を達成するようになった。
  • fast-SWAは、標準的な学習法やベースラインのSWAと比較して、より速い収束とより優れた一般化性能を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。