QUICK REVIEW

[논문 리뷰] Understanding and Enhancing Mixed Sample Data Augmentation.

Ethan Harris, Antonia Marcu|arXiv (Cornell University)|2020. 02. 27.

Advanced Neural Network Applications참고 문헌 15인용 수 21

한 줄 요약

이 논문은 저주파 수식공간 이미지에서 유도된 무작위 이진 마스크를 사용하여 다양한 비정사각형 형태의 마스크를 생성하는 새로운 혼합 샘플 데이터 증강 방법인 FMix를 제안한다. MixUp와 달리, FMix는 특징 표현을 왜곡하거나 적대적으로 작용하지 않으며, 데이터 분포를 유지하면서 암기 방지를 가능하게 하여 외부 데이터 없이 CIFAR-10에서 최고 성능을 달성하며, 훈련 시간 증가 없이 MixUp 및 CutMix를 모두 능가한다.

ABSTRACT

Mixed Sample Data Augmentation (MSDA) has received increasing attention in recent years, with many successful variants such as MixUp and CutMix. By studying the mutual information between the function learned by a VAE on the original data and on the augmented data we show that MixUp distorts learned functions in a way that CutMix does not. We further demonstrate this by showing that MixUp acts as a form of adversarial training, increasing robustness to attacks such as Deep Fool and Uniform Noise which produce examples similar to those generated by MixUp. We argue that this distortion prevents models from learning about sample specific features in the data, aiding generalisation performance. In contrast, we suggest that CutMix works more like a traditional augmentation, improving performance by preventing memorisation without distorting the data distribution. However, we argue that an MSDA which builds on CutMix to include masks of arbitrary shape, rather than just square, could further prevent memorisation whilst preserving the data distribution in the same way. To this end, we propose FMix, an MSDA that uses random binary masks obtained by applying a threshold to low frequency images sampled from Fourier space. These random masks can take on a wide range of shapes and can be generated for use with one, two, and three dimensional data. FMix improves performance over MixUp and CutMix, without an increase in training time, for a number of models across a range of data sets and problem settings, obtaining a new single model state-of-the-art result on CIFAR-10 without external data. Finally, we show that a consequence of the difference between interpolating MSDA such as MixUp and masking MSDA such as FMix is that the two can be combined to improve performance even further. Code for all experiments is provided at this https URL .

연구 동기 및 목표

혼합 샘플 데이터 증강(MSDA) 방법인 MixUp 및 CutMix가 딥 모델의 표현 학습에 미치는 영향을 조사하는 것.
왜 MixUp는 학습된 함수를 왜곡하고 샘플 고유의 특징 학습을 저해하는가, 반면 CutMix는 그러한 왜곡을 피하는가를 규명하는 것.
CutMix의 장점—데이터 분포 유지 및 암기 방지—를 유지하면서도 임의의 형태의 마스크를 가능하게 하여 일반화 성능 향상을 도모하는 새로운 MSDA 방법을 개발하는 것.
저주파 푸리에 변환을 통해 임의의 이진 마스크를 생성하는 방법을 제안하고, 이를 1D, 2D, 3D 데이터에 적용 가능한 FMix를 제안 및 평가하는 것.
다양한 데이터셋과 모델에서 FMix가 MixUp 및 CutMix를 능가하는 성능 향상을 이끌어내며, 보간 기반과 마스킹 기반 MSDA를 조합할 경우 성능 향상이 더욱 향상됨을 입증하는 것.

제안 방법

FMix는 푸리에 공간에서 저주파 이미지를 샘플링하고 임계값을 적용하여 비정규형, 비정사각형 형태의 무작위 이진 마스크를 생성한다.
경사 하강법을 통한 엔드 투 엔드 학습이 가능하도록 기울기가 흐르도록 가능한 미분 가능 샘플링 과정을 사용한다.
마스크는 입력 데이터와 레이블에 원소별 곱셈과 보간을 통해 적용되며, CutMix와 유사하지만, 푸리에 기반 생성으로 인해 형태의 다양성이 확보된다.
주파수 도메인 샘플링 메커니즘 덕분에 1D, 2D, 3D 데이터—이미지, 오디오, 영상 등—모두에 일반화 가능하다.
FMix는 MixUp보다 데이터 분포를 더 잘 유지하며, 특징 표현의 적대적 왜곡을 방지한다.
보간 기반 MSDA(MixUp 등)와의 조합이 가능하여, 둘 다 사용할 경우 상호보완적인 성능 향상이 가능하다.

실험 결과

연구 질문

RQ1VAE가 학습한 표현 함수에 MixUp이 미치는 영향은 무엇이며, 기저 데이터 분포를 왜곡하는가?
RQ2왜 CutMix는 특징 표현을 왜곡하지 않으면서도 MixUp과 달리 일반화 성능을 향상시키는가?
RQ3임의의 형태의 마스크를 가진 마스킹 기반 MSDA가 암기를 줄이면서도 데이터 분포를 유지할 수 있는가?
RQ4푸리에 샘플링 마스크를 사용하는 FMix가 다양한 데이터셋과 아키텍처에서 기존의 MSDA 방법인 MixUp 및 CutMix를 능가하는가?
RQ5보간 기반(MixUp)과 마스킹 기반(FMix) MSDA를 조합하면 추가적인 성능 향상이 이루어지는가?

주요 결과

FMix는 외부 데이터 없이 CIFAR-10에서 단일 모델로 최고 성능을 달성하며, MixUp 및 CutMix를 모두 능가한다.
FMix는 훈련 시간 증가 없이도 다양한 모델과 데이터셋에서 일반화 성능을 향상시킨다.
MixUp는 학습된 함수를 왜곡하고, Deep Fool 및 Uniform Noise와 같은 공격에 대한 강건성을 높이는 적대적 훈련의 형태로 작용하는 것으로 밝혀졌다.
CutMix는 데이터 분포를 왜곡하지 않으며, MixUp보다 암기를 더 효과적으로 방지하여 표준 데이터 증강에 더 적합하다.
MixUp과 FMix의 조합은 추가적인 성능 향상을 이끌어내어, 보간 기반과 마스킹 기반 MSDA 간의 상호보완적 강점이 있음을 시사한다.
FMix의 푸리에 샘플링 마스크 사용은 다양하고 비정사각형의 마스크 형태를 가능하게 하여 일반화 성능 향상과 함께 데이터 분포 유지 정확도를 확보한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.