[論文レビュー] Understanding and Enhancing Mixed Sample Data Augmentation.
本稿では、低周波数のフーリエ空間画像からランダムなバイナリマスクを生成することで、多様で非正方形のマスク形状を実現する、新しい混合サンプルデータ拡張手法FMixを提案する。MixUpとは異なり、特徴表現を歪めず、敵対的要因を含まずにデータ分布を保持するため、外部データを用いないCIFAR-10でSOTA性能を達成し、トレーニング時間に増加がないまま、MixUpおよびCutMixを上回る性能を発揮する。
Mixed Sample Data Augmentation (MSDA) has received increasing attention in recent years, with many successful variants such as MixUp and CutMix. By studying the mutual information between the function learned by a VAE on the original data and on the augmented data we show that MixUp distorts learned functions in a way that CutMix does not. We further demonstrate this by showing that MixUp acts as a form of adversarial training, increasing robustness to attacks such as Deep Fool and Uniform Noise which produce examples similar to those generated by MixUp. We argue that this distortion prevents models from learning about sample specific features in the data, aiding generalisation performance. In contrast, we suggest that CutMix works more like a traditional augmentation, improving performance by preventing memorisation without distorting the data distribution. However, we argue that an MSDA which builds on CutMix to include masks of arbitrary shape, rather than just square, could further prevent memorisation whilst preserving the data distribution in the same way. To this end, we propose FMix, an MSDA that uses random binary masks obtained by applying a threshold to low frequency images sampled from Fourier space. These random masks can take on a wide range of shapes and can be generated for use with one, two, and three dimensional data. FMix improves performance over MixUp and CutMix, without an increase in training time, for a number of models across a range of data sets and problem settings, obtaining a new single model state-of-the-art result on CIFAR-10 without external data. Finally, we show that a consequence of the difference between interpolating MSDA such as MixUp and masking MSDA such as FMix is that the two can be combined to improve performance even further. Code for all experiments is provided at this https URL .
研究の動機と目的
- 混合サンプルデータ拡張(MSDA)手法、特にMixUpとCutMixが深層モデルの表現学習に与える影響を調査すること。
- MixUpが学習された関数を歪め、サンプル固有の特徴の学習を妨げる理由と、CutMixがそのような歪みを回避する理由を特定すること。
- CutMixの利点(データ分布の保持と記憶の防止)を組み合わせつつ、任意形状のマスクを可能にすることで一般化性能を向上させる新しいMSDA手法を開発すること。
- 1次元、2次元、3次元データに適用可能な、低周波数フーリエ変換のしきい値処理によりランダムなバイナリマスクを生成する手法FMixを提案・評価すること。
- 複数のデータセットおよびモデルにおいて、FMixがMixUpおよびCutMixを上回る性能を発揮することを示し、補間ベースとマスキングベースのMSDAを組み合わせることでさらなる性能向上が得られることを確認すること。
提案手法
- FMixは、フーリエ空間からの低周波数画像をサンプリングし、しきい値処理を施して不規則で非正方形の形状を持つランダムなバイナリマスクを生成する。
- 勾配が逆伝播可能となるように微分可能なサンプリングプロセスを用いることで、標準的なバックプロパゲーションによるエンドツーエンド学習が可能となる。
- マスクは、CutMixと同様に要素ごとの乗算と補間を用いて入力データおよびラベルに適用されるが、フーリエベースの生成により形状の多様性が得られる。
- 周波数ドメインでのサンプリングメカニズムのおかげで、画像、音声、動画を含む1次元、2次元、3次元データへ汎用的に適用可能である。
- FMixは、MixUpよりもデータ分布をよりよく保持しており、特徴表現の敵対的歪みを回避する。
- 補間ベースのMSDA(例:MixUp)と組み合わせることが可能であり、両者を併用することで相乗効果が得られることを示している。
実験結果
リサーチクエスチョン
- RQ1VAEが学習する表現関数にMixUpが与える影響は何か? また、それは元のデータ分布を歪めるのか?
- RQ2なぜCutMixは特徴表現を歪めることなく一般化性能を向上させられるのか? これに対してMixUpはなぜ歪みを生じるのか?
- RQ3任意形状のマスクを用いたマスキングベースのMSDAは、記憶をさらに低減させつつデータ分布を保持できるか?
- RQ4フーリエサンプリングされたマスクを用いるFMixは、複数のデータセットおよびアーキテクチャにおいて、MixUpやCutMixといった既存のMSDA手法を上回る性能を発揮するか?
- RQ5補間ベース(MixUp)とマスキングベース(FMix)のMSDAを組み合わせることで、さらなる性能向上が得られるか?
主な発見
- FMixは外部データを一切使用しないCIFAR-10で、単一モデルとしてSOTAの成績を達成し、MixUpおよびCutMixを上回る性能を発揮した。
- FMixはトレーニング時間に増加がなく、複数のモデルおよびデータセットにおいて一般化性能を向上させた。
- MixUpは学習関数を歪め、Deep Fool やUniform Noiseに対する攻撃に対して耐性を高める敵対的訓練の一種であることが判明した。
- CutMixはデータ分布を歪めず、MixUpよりも記憶をより効果的に防止するため、標準的なデータ拡張に適している。
- MixUpとFMixの組み合わせによりさらなる性能向上が得られ、補間ベースとマスキングベースのMSDAには相補的な強みがあることが示された。
- FMixがフーリエサンプリングされたマスクを用いることで、多様で非正方形のマスク形状が実現され、一般化性能の向上と同時にデータ分布の忠実性を維持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。