[논문 리뷰] FMix: Enhancing Mixed Sample Data Augmentation
FMix는 저주파 푸리에 기반 마스크를 사용하는 마스킹 혼합 샘플 데이터 증강을 도입했으며, 여러 데이터 세트와 모달리티에서 MixUp과 CutMix를 능가합니다.
Mixed Sample Data Augmentation (MSDA) has received increasing attention in recent years, with many successful variants such as MixUp and CutMix. By studying the mutual information between the function learned by a VAE on the original data and on the augmented data we show that MixUp distorts learned functions in a way that CutMix does not. We further demonstrate this by showing that MixUp acts as a form of adversarial training, increasing robustness to attacks such as Deep Fool and Uniform Noise which produce examples similar to those generated by MixUp. We argue that this distortion prevents models from learning about sample specific features in the data, aiding generalisation performance. In contrast, we suggest that CutMix works more like a traditional augmentation, improving performance by preventing memorisation without distorting the data distribution. However, we argue that an MSDA which builds on CutMix to include masks of arbitrary shape, rather than just square, could further prevent memorisation whilst preserving the data distribution in the same way. To this end, we propose FMix, an MSDA that uses random binary masks obtained by applying a threshold to low frequency images sampled from Fourier space. These random masks can take on a wide range of shapes and can be generated for use with one, two, and three dimensional data. FMix improves performance over MixUp and CutMix, without an increase in training time, for a number of models across a range of data sets and problem settings, obtaining a new single model state-of-the-art result on CIFAR-10 without external data. Finally, we show that a consequence of the difference between interpolating MSDA such as MixUp and masking MSDA such as FMix is that the two can be combined to improve performance even further. Code for all experiments is provided at https://github.com/ecs-vlc/FMix .
연구 동기 및 목표
- MSDA 왜곡이 학습된 표현 및 일반화에 어떤 영향을 미치는지 조사한다.
- 정보 이론적 분석 및 강인성 분석을 사용하여 보간형 MSDA(MixUp)와 마스킹 MSDA(CutMix)를 비교한다.
- 데이터 분포를 더 잘 보존하기 위해 다양한 마스크 형태를 갖춘 유연한 마스킹 MSDA인 FMix를 제안한다.
- 이미지, 오디오, 3D 포인트 클라우드 작업 전반에서 FMix의 효과를 입증한다.
제안 방법
- 실제 데이터와 증강 데이터에서 학습된 표현을 비교하기 위해 VAE를 사용한 상호 정보 기반 척도를 정의한다.
- MixUp이 학습된 함수를 왜곡하고 적대적 학습처럼 작동하는 반면, CutMix는 더 많은 데이터 정보를 보존한다는 것을 보인다.
- 낮은 주파수 푸리에 공간 샘플에서 이진 마스크를 생성하고 임계값을 적용하여 다양하고 국소적으로 일관된 마스크를 만들어 FMix를 도입한다.
- FMix 마스킹 함수는 x_A = M ⊙ x_1 + (1−M) ⊙ x_2 이고 M은 임계값을 적용한 저주파 이미지에서 얻어진다.
- CIFAR-10/100, Fashion MNIST, Tiny-ImageNet, ImageNet 및 추가 모달리티(음성, 그래펨, 3D 포인트 클라우드)에 대해 baselines 대비 FMix를 평가한다.
실험 결과
연구 질문
- RQ1CNN 표현에서 마스킹 MSDA가 보간형 MSDA보다 데이터 분포를 더 잘 보존합니까?
- RQ2푸리에 기반 무작위 마스크가 CutMix와 같은 정사각형 마스크보다 더 크고 다양한 증강 공간을 제공할 수 있습니까?
- RQ3FMix가 이미지, 오디오, 3D를 포함한 다양한 모달리티에서 MixUp과 CutMix와 비교하여 어떻게 성능을 보입니까?
- RQ4훈련 정책에서 결합할 때 마스킹 MSDAs가 보간형 MSDAs를 보완합니까?
주요 결과
- FMix는 VAE 기반 분석에서 증강 데이터 표현과 실제 데이터 표현 간의 상호 정보가 MixUp 및 CutMix보다 더 높다.
- FMix는 CNN에 대해 데이터 분포를 더 잘 보존하는 증강 데이터를 생성하며, Grad-CAM 분석이 더 넓은 특징 활용을 시사한다.
- FMix는 CIFAR-10/100, Fashion MNIST, Tiny-ImageNet 및 기타 설정에서 기준선 및 여러 MSDA 방법보다 분류 정확도를 향상시키며, 외부 데이터 없이 강력한 또는 최첨단 성과를 달성한다(예: PyramidNet를 사용한 CIFAR-10).
- FMix는 1D 및 3D 데이터뿐 아니라 다른 모달리티(음성, 그래펨, 3D 포인트 클라우드)로 확장되며, 종종 MixUp 및 CutMix를 능가한다.
- 훈련 데이터가 제한될 때 MixUp과 FMix를 교대하는 하이브리드 정책이 어떤 방법보다 우수할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.