[論文レビュー] MaxUp: A Simple Way to Improve Generalization of Neural Network Training
MaxUp は augmented data 上の最大損失を最小化して勾配ノルム正則化を誘導し、視覚・言語・認定タスク全体で過学習を抑え、オーバーヘッドを最小限に抑えつつ一般化を改善する。
We propose \emph{MaxUp}, an embarrassingly simple, highly effective technique for improving the generalization performance of machine learning models, especially deep neural networks. The idea is to generate a set of augmented data with some random perturbations or transforms and minimize the maximum, or worst case loss over the augmented data. By doing so, we implicitly introduce a smoothness or robustness regularization against the random perturbations, and hence improve the generation performance. For example, in the case of Gaussian perturbation, \emph{MaxUp} is asymptotically equivalent to using the gradient norm of the loss as a penalty to encourage smoothness. We test \emph{MaxUp} on a range of tasks, including image classification, language modeling, and adversarial certification, on which \emph{MaxUp} consistently outperforms the existing best baseline methods, without introducing substantial computational overhead. In particular, we improve ImageNet classification from the state-of-the-art top-1 accuracy $85.5\%$ without extra data to $85.8\%$. Code will be released soon.
研究の動機と目的
- ニューラルネットワーク訓練における過学習と一般化ギャップを動機づける。
- ランダムデータ摂動に対する頑健性を強制する MaxUp を提案する。
- MaxUp が Gaussian 摂動の下で勾配ノルム正則化として作用することを示す。
- 画像分類、言語モデリング、アドバーサリアル認証を跨ぐ改善を示す。
提案手法
- データ点ごとに摂動分布 P(·|x) から m 個の augmented コピーを生成する。
- m 個の augmented コピーの中で最悪の損失を最小化する: min_theta E_x~D[ max_{i in [m]} L(x_i', theta) ].
- 各データ点につき最悪の augmented コピーだけを逆伝搬させ、シンプルな SGD 更新を与える (勾配は最悪コピーの勾配に等しい)。
- MaxUp をテイラー展開で解釈すると、勾配ノルム正則化項 ||∇_x L(x, theta)||_2 を係数 c_{m,σ} = Θ(σ sqrt(log m)) で導入する。
- 各分布が等方的ガウス摂動 P(·|x)=N(x, σ^2 I) の場合、期待 MaxUp リスクは近似的に L(x, theta) + c_{m,σ}||∇_x L(x, theta)||_2 + O(σ^2) となる。
- MaxUp が既存のデータ拡張を補完し、軽量な adversarial training および online hard example mining との関係を説明する。
実験結果
リサーチクエスチョン
- RQ1 augmented data 上の損失を最大化することは、標準のデータ拡張を超える一般化を促進するか?
- RQ2Gaussian ノイズなどの摂動下での勾配ノルム正則化として MaxUp はどのように関連するか?
- RQ3 MaxUp は diverse tasks/ architectures で substantial な計算オーバーヘッドなしに性能を向上させ得るか?
- RQ4m の選択と摂動分布 P(·|x) がデータセット間でどのように性能に影響するか?
- RQ5MaxUp は既存の adversarial training 術式や認証手法とどのように相互作用するか?
主な発見
- MaxUp は画像分類、言語モデリング、アドバーサリアル認証タスク全般で一般化を改善する。
- ImageNet では、CutMix を用いた MaxUp は top-1 accuracy を 85.5% から 85.8% に引き上げた(extra data を使わない最先端と比較して)。
- CIFAR-10 で Cutout を用いた場合、MaxUp は精度を 95.41% から 95.52% へ改善した(複数実行の平均)。
- CIFAR-100 では、Cutout を用いた MaxUp は 75.26% から 82.48% へ改善した(WideResNet-28-10、表は m=10 で 82.48%)。
- 言語モデリングでは、 AWD-LSTM に適用された MaxUp は PTB と WT2 の perplexities を prior state-of-the-art baselines より低くした。
- adversarial certification のため、ガウス摂動を用いた MaxUp(MaxUp+Gauss)は Cohen ら (2019) および PGD ベースの訓練を、調査した半径で上回り、より速く、ハイパーパラメータ調整が容易。
- MaxUp は PGD adversarial training の軽量な代替手段を提供し、最小限のオーバーヘッドと拡張スキームへの広い適合性を持つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。