QUICK REVIEW

[논문 리뷰] MaxUp: A Simple Way to Improve Generalization of Neural Network Training

Chengyue Gong, Tongzheng Ren|arXiv (Cornell University)|2020. 02. 20.

Adversarial Robustness in Machine Learning참고 문헌 42인용 수 35

한 줄 요약

MaxUp은 증강 데이터에서 최대 손실을 최소화하여 기울기-노름 정규화를 유도하고 일반화를 향상시키며 비전, 언어 및 인증 작업 전반에 걸쳐 최소한의 오버헤드를 제공합니다.

ABSTRACT

We propose \emph{MaxUp}, an embarrassingly simple, highly effective technique for improving the generalization performance of machine learning models, especially deep neural networks. The idea is to generate a set of augmented data with some random perturbations or transforms and minimize the maximum, or worst case loss over the augmented data. By doing so, we implicitly introduce a smoothness or robustness regularization against the random perturbations, and hence improve the generation performance. For example, in the case of Gaussian perturbation, \emph{MaxUp} is asymptotically equivalent to using the gradient norm of the loss as a penalty to encourage smoothness. We test \emph{MaxUp} on a range of tasks, including image classification, language modeling, and adversarial certification, on which \emph{MaxUp} consistently outperforms the existing best baseline methods, without introducing substantial computational overhead. In particular, we improve ImageNet classification from the state-of-the-art top-1 accuracy $85.5\%$ without extra data to $85.8\%$. Code will be released soon.

연구 동기 및 목표

신경망 학습에서 과적합 및 일반화 차이를 유도한다.
무작위 데이터 섭동에 대한 강건성을 강화하도록 MaxUp를 제안한다.
Gaussian 섭동에서 MaxUp가 기울기-노름 정규화로 작동함을 보인다.
이미지 분류, 언어 모델링, 적대적 인증 전반에서 개선을 입증한다.

제안 방법

데이터 포인트마다 P(·|x)로부터 m개의 증강 복사본을 생성한다.
m개의 증강 복사본에서의 최악의 손실을 최소화한다: min_theta E_x~D[ max_{i in [m]} L(x_i', theta) ].
각 데이터 포인트에 대해 최악의 증강 복사본을 통한 역전파만 수행하여 간단한 SGD 업데이트를 제공한다(기울기는 최악의 복사본의 기울기로 같다).
MaxUp를 Taylor 전개를 통해 ||∇_x L(x, theta)||_2 의 계수 c_{m,σ} = Θ(σ sqrt(log m))인 기울기-노름 정규화 항을 도입하는 것으로 해석한다.
등방성 가우시안 섭동 P(·|x)=N(x, σ^2 I)일 때 기대 MaxUp 리스크는 L(x, theta) + c_{m,σ}||∇_x L(x, theta)||_2 + O(σ^2)에 근사한다.
기존 데이터 증강을 보완하는 방식과 경량의 적대적 학습 및 온라인 하드 예제 마이닝과의 관계를 설명한다.

실험 결과

연구 질문

RQ1증강 데이터에서 손실을 최대화하는 것이 표준 데이터 증강을 넘어 일반화를 개선하는가?
RQ2가우시안 노이즈와 같은 섭동하에서 MaxUp가 기울기-노름 정규화와 어떻게 관련되는가?
RQ3MaxUp가 광범위한 작업(비전, 언어 모델링, 인증된 강건성) 및 다양한 아키텍처에서 상당한 계산 오버헤드 없이 성능을 향상시킬 수 있는가?
RQ4m의 선택과 증강 분포 P(·|x)가 데이터셋 전반의 성능에 어떤 영향을 미치는가?
RQ5MaxUp가 기존의 적대적 학습 체계 및 인증 방법과 어떻게 상호작용하는가?

주요 결과

MaxUp는 이미지 분류, 언어 모델링, 적대적 인증 작업 전반에서 일반화를 향상시킨다.
ImageNet에서 CutMix를 사용하는 MaxUp은 top-1 정확도를 85.5%(추가 데이터 없이도 최첨단)에서 85.8%로 올린다.
CIFAR-10에서 Cutout을 사용할 때 특정 아키텍처에서 정확도가 95.41%에서 95.52%로(실험 반복 평균) 향상된다.
CIFAR-100에서 Cutout을 쓰면 정확도가 75.26%에서 82.48%로 향상된다(WideResNet-28-10, 표에 m=10에서 82.48%로 기재).
언어 모델링에서 AWD-LSTM에 적용된 MaxUp가 PTB와 WT2에서 이전 최첨단 기준선보다 더 낮은 perplexities를 보인다.
적대적 인증에서 가우시안 섭동을 사용하는 MaxUp(MaxUp+Gauss)은 조사된 반지름들에 대해 Cohen et al. (2019) 및 PGD 기반 학습보다 우수하며, 하이퍼파라미터 조정이 더 빠르고 쉬워진다.
MaxUp은 PGD 적대적 학습에 대한 가벼운 대안을 제공하며, 최소한의 오버헤드와 다양한 증강 체계와의 폭넓은 호환성을 갖는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.