Skip to main content
QUICK REVIEW

[論文レビュー] MaxUp: A Simple Way to Improve Generalization of Neural Network Training

Chengyue Gong, Tongzheng Ren|arXiv (Cornell University)|Feb 20, 2020
Adversarial Robustness in Machine Learning参考文献 42被引用数 35
ひとこと要約

MaxUp は augmented data 上の最大損失を最小化して勾配ノルム正則化を誘導し、視覚・言語・認定タスク全体で過学習を抑え、オーバーヘッドを最小限に抑えつつ一般化を改善する。

ABSTRACT

We propose \emph{MaxUp}, an embarrassingly simple, highly effective technique for improving the generalization performance of machine learning models, especially deep neural networks. The idea is to generate a set of augmented data with some random perturbations or transforms and minimize the maximum, or worst case loss over the augmented data. By doing so, we implicitly introduce a smoothness or robustness regularization against the random perturbations, and hence improve the generation performance. For example, in the case of Gaussian perturbation, \emph{MaxUp} is asymptotically equivalent to using the gradient norm of the loss as a penalty to encourage smoothness. We test \emph{MaxUp} on a range of tasks, including image classification, language modeling, and adversarial certification, on which \emph{MaxUp} consistently outperforms the existing best baseline methods, without introducing substantial computational overhead. In particular, we improve ImageNet classification from the state-of-the-art top-1 accuracy $85.5\%$ without extra data to $85.8\%$. Code will be released soon.

研究の動機と目的

  • ニューラルネットワーク訓練における過学習と一般化ギャップを動機づける。
  • ランダムデータ摂動に対する頑健性を強制する MaxUp を提案する。
  • MaxUp が Gaussian 摂動の下で勾配ノルム正則化として作用することを示す。
  • 画像分類、言語モデリング、アドバーサリアル認証を跨ぐ改善を示す。

提案手法

  • データ点ごとに摂動分布 P(·|x) から m 個の augmented コピーを生成する。
  • m 個の augmented コピーの中で最悪の損失を最小化する: min_theta E_x~D[ max_{i in [m]} L(x_i', theta) ].
  • 各データ点につき最悪の augmented コピーだけを逆伝搬させ、シンプルな SGD 更新を与える (勾配は最悪コピーの勾配に等しい)。
  • MaxUp をテイラー展開で解釈すると、勾配ノルム正則化項 ||∇_x L(x, theta)||_2 を係数 c_{m,σ} = Θ(σ sqrt(log m)) で導入する。
  • 各分布が等方的ガウス摂動 P(·|x)=N(x, σ^2 I) の場合、期待 MaxUp リスクは近似的に L(x, theta) + c_{m,σ}||∇_x L(x, theta)||_2 + O(σ^2) となる。
  • MaxUp が既存のデータ拡張を補完し、軽量な adversarial training および online hard example mining との関係を説明する。

実験結果

リサーチクエスチョン

  • RQ1 augmented data 上の損失を最大化することは、標準のデータ拡張を超える一般化を促進するか?
  • RQ2Gaussian ノイズなどの摂動下での勾配ノルム正則化として MaxUp はどのように関連するか?
  • RQ3 MaxUp は diverse tasks/ architectures で substantial な計算オーバーヘッドなしに性能を向上させ得るか?
  • RQ4m の選択と摂動分布 P(·|x) がデータセット間でどのように性能に影響するか?
  • RQ5MaxUp は既存の adversarial training 術式や認証手法とどのように相互作用するか?

主な発見

  • MaxUp は画像分類、言語モデリング、アドバーサリアル認証タスク全般で一般化を改善する。
  • ImageNet では、CutMix を用いた MaxUp は top-1 accuracy を 85.5% から 85.8% に引き上げた(extra data を使わない最先端と比較して)。
  • CIFAR-10 で Cutout を用いた場合、MaxUp は精度を 95.41% から 95.52% へ改善した(複数実行の平均)。
  • CIFAR-100 では、Cutout を用いた MaxUp は 75.26% から 82.48% へ改善した(WideResNet-28-10、表は m=10 で 82.48%)。
  • 言語モデリングでは、 AWD-LSTM に適用された MaxUp は PTB と WT2 の perplexities を prior state-of-the-art baselines より低くした。
  • adversarial certification のため、ガウス摂動を用いた MaxUp(MaxUp+Gauss)は Cohen ら (2019) および PGD ベースの訓練を、調査した半径で上回り、より速く、ハイパーパラメータ調整が容易。
  • MaxUp は PGD adversarial training の軽量な代替手段を提供し、最小限のオーバーヘッドと拡張スキームへの広い適合性を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。