Skip to main content
QUICK REVIEW

[論文レビュー] Manifold Mixup: Better Representations by Interpolating Hidden States

Vikas Verma, Alex Lamb|arXiv (Cornell University)|Jun 13, 2018
Generative Adversarial Networks and Image Synthesis被引用数 477
ひとこと要約

Manifold Mixup は、混合ラベルを伴う隠れ表現を補間することによりネットワークを正則化し、クラス表現をより平坦にし、決定境界をより滑らかにし、一般化を改善し、新規の変形や単一步の敵対的攻撃に対する頑健性を向上させます。

ABSTRACT

Deep neural networks excel at learning the training data, but often provide incorrect and confident predictions when evaluated on slightly different test examples. This includes distribution shifts, outliers, and adversarial examples. To address these issues, we propose Manifold Mixup, a simple regularizer that encourages neural networks to predict less confidently on interpolations of hidden representations. Manifold Mixup leverages semantic interpolations as additional training signal, obtaining neural networks with smoother decision boundaries at multiple levels of representation. As a result, neural networks trained with Manifold Mixup learn class-representations with fewer directions of variance. We prove theory on why this flattening happens under ideal conditions, validate it on practical situations, and connect it to previous works on information theory and generalization. In spite of incurring no significant computation and being implemented in a few lines of code, Manifold Mixup improves strong baselines in supervised learning, robustness to single-step adversarial attacks, and test log-likelihood.

研究の動機と目的

  • より深層ニューラルネットにおける分布シフトと敵対的摂動下での一般化の必要性を動機付ける。
  • 隠れ表現の線形補間と対応するソフトラベルを用いる正則化子として Manifold Mixup を紹介する。
  • 表現の平坦化を理論的に特徴づけ、その現象とベンチマークを通じた利益を実証的に検証する。
  • 一般化性能、対数尤度、敵対的および新規変形に対する頑健性の実証的向上を示す。

提案手法

  • 適格レイヤの集合からランダムに層 k を選択し、隠れ表現 gk(x) と gk(x′) およびそれらの one-hot ラベルの Mixλ を計算し、全ネットワークを通して誤差逆伝播を行うことで Manifold Mixup を訓練する。
  • L(f)=E_{(x,y),(x′,y′),λ,k} ℓ(fk(Mixλ(gk(x),gk(x′))), Mixλ(y,y′)) のペアに対して平均化した損失を最小化する。
  • ベンチマーク(CIFAR-10/100、SVHN、TinyImagenet)を横断して、Input Mixup や他の正則化手法と Manifold Mixup を比較し、SVD を用いて表現を分析する。
  • もし隠れ層の次元 dim(H) が d−1 以上(d はクラス数)である場合、最適解 f⋆ は線形であり、訓練点は dim(H)−d+1 の部分空間上にあるとする(定理1および推論1)。
  • 変形や敵対的攻撃(FGSM、PGD)に対する頑健性を検討し、勾配信号の整合性を確保するための anti-gradient masking チェックを実施する。
  • Manifold Mixup により、ネットワークアーキテクチャ(PreActResNet 系列、Wide-ResNet)およびデータセット全体で NLL とテスト誤差が改善されることを実証する。
(a)
(a)

実験結果

リサーチクエスチョン

  • RQ1Mixλ で隠れ表現を補間することは、入力空間の Mixup や他の正則化手法に比べて一般化とキャリブレーション(NLL)を改善するか。
  • RQ2隠れ層におけるクラス表現の幾何学(平坦化、分散方向の縮小)はどのように変化するか。
  • RQ3新規の入力変形や単一步の敵対的攻撃に対する頑健性は向上するか、どの程度か。
  • RQ4深い表現の補間を伴う訓練による効果なのか、それとも入力層での正則化信号のみで効果が生じるのか。
  • RQ5α や適格レイヤ集合 S などハイパーパラメータにはどれくらい敏感か。

主な発見

  • Manifold Mixup は、CIFAR-10/100、SVHN、TinyImagenet 全体で、 vanilla training、AdaMix、Input Mixup よりもテスト誤差が改善され、NLL が大幅に低下する。
  • 新規変形への頑健性が向上し、回転・せん断・ズームされた入力に対する精度がベースラインより高い。
  • FGSM 対応能力は Manifold Mixup によって著しく改善されるが、PGD の頑健性には大きな改善は見られない。
  • SVD 分析は、Manifold Mixup がクラス特異的表現を平坦化し、最大特異値に対する小さな特異値の和が減少することを示し、他の正則化手法より低次元の分散を示唆する。
  • 十分に高い隠れ層の次元を満たす場合、隠れ層での混合が線形決定境界をもたらし損失をゼロにできることを示す理論的結果は、クラス表現の平坦化を意味する。
(b)
(b)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。