Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Data Augmentation

Qizhe Xie, Zihang Dai|arXiv (Cornell University)|2019. 04. 29.
Topic Modeling참고 문헌 18인용 수 175
한 줄 요약

UDA는 레이블이 없는 데이터에 데이터 증강을 적용하여, 최첨단 증강 정책에서 유래한 현실적인 노이즈를 사용해 원본 및 증강된 레이블이 없는 예제 간 예측 일致성을 강제하는 준감독 학습 방법을 제안한다. 이 방법은 여섯 개인 자연어 처리 및 세 개인 비전 작업에서 최첨단 성능을 달성하며, 레이블이 거의 없는 조건에서도 CIFAR-10과 SVHN에서 오차율을 30% 이상 감소시킨다.

ABSTRACT

Despite its success, deep learning still needs large labeled datasets to succeed. Data augmentation has shown much promise in alleviating the need for more labeled data, but it so far has mostly been applied in supervised settings and achieved limited gains. In this work, we propose to apply data augmentation to unlabeled data in a semi-supervised learning setting. Our method, named Unsupervised Data Augmentation or UDA, encourages the model predictions to be consistent between an unlabeled example and an augmented unlabeled example. Unlike previous methods that use random noise such as Gaussian noise or dropout noise, UDA has a small twist in that it makes use of harder and more realistic noise generated by state-of-the-art data augmentation methods. This small twist leads to substantial improvements on six language tasks and three vision tasks even when the labeled set is extremely small. For example, on the IMDb text classification dataset, with only 20 labeled examples, UDA outperforms the state-of-the-art model trained on 25,000 labeled examples. On standard semi-supervised learning benchmarks, CIFAR-10 with 4,000 examples and SVHN with 1,000 examples, UDA outperforms all previous approaches and reduces more than $30\%$ of the error rates of state-of-the-art methods: going from 7.66% to 5.27% and from 3.53% to 2.46% respectively. UDA also works well on datasets that have a lot of labeled data. For example, on ImageNet, with 1.3M extra unlabeled data, UDA improves the top-1/top-5 accuracy from 78.28/94.36% to 79.04/94.45% when compared to AutoAugment.

연구 동기 및 목표

  • 딥 러닝에서 대규모 레이블이 있는 데이터셋에 대한 의존도를 줄이기 위해, 데이터 증강을 통해 레이블이 없는 데이터를 활용하는 것.
  • 비감독 및 준감독 설정에서 데이터 증강의 효과가 제한적인 문제를 해결하는 것.
  • 원본 및 증강된 레이블이 없는 예제 간 예측 일치성을 강제하여 모델의 일반화 성능을 향상시키는 것.
  • 실제로 강력한 증강 정책이 무작위 노이즈보다 준감독 학습에서 더 우수한 성능을 내는지 탐구하는 것.

제안 방법

  • UDA는 레이블이 없는 예제에 증강을 적용하고, 원본 및 증강된 버전 간 모델 예측의 일致성을 강제한다.
  • 이 방법은 AutoAugment나 Cutout와 같은 최첨단 데이터 증강 정책을 사용하여 무작위적이지 않은, 현실적인 노이즈를 생성한다.
  • 예측 일치성은 원본 및 증강된 레이블이 없는 입력의 예측 간 KL 발산을 최소화하는 일치 정규화 손실을 통해 강제된다.
  • 모델은 레이블이 있는 데이터(교차 엔트로피 손실)와 레이블이 없는 데이터(일치 손실)를 모두 사용하여 엔드 투 엔드로 훈련되며, 이는 준감독 학습을 가능하게 한다.
  • UDA는 자기 훈련 방식으로 적용되며, 증강된 레이블이 없는 데이터에 대한 예측을 사용해 모델을 개선한다.
  • 이 방법은 도메인에 종속되지 않으며, ImageNet, CIFAR-10, SVHN, IMDb와 같은 비전 및 언어 작업 전반에서 효과적이다.

실험 결과

연구 질문

  • RQ1레이블이 없는 데이터에 적용된 데이터 증강이 준감독 학습에서 모델 성능을 크게 향상시킬 수 있는가?
  • RQ2실제로 강력한 증강 정책을 사용할 경우, 일치 정규화에서 무작위 노이즈보다 성능이 뛰어나게 되는가?
  • RQ3텍스트 분류에서 레이블이 매우 제한적인 경우, 예를 들어 20개의 예제만 있을 때 UDA는 얼마나 효과적인가?
  • RQ4최소한의 레이블 데이터로도 CIFAR-10과 SVHN과 같은 표준 벤치마크에서 최첨단 성능을 달성할 수 있는가?
  • RQ5풍부한 레이블이 없는 데이터가 있는 대규모 데이터셋인 ImageNet에 대해 UDA는 효과적으로 스케일업 가능한가?

주요 결과

  • IMDb 텍스트 분류 데이터셋에서 UDA는 단 20개의 레이블 예제만으로 최첨단 성능을 달성했으며, 25,000개의 레이블 예제로 훈련된 모델보다 뛰어난 성능을 보였다.
  • CIFAR-10에서 4,000개의 레이블 예제를 사용할 경우, UDA는 오차율을 7.66%에서 5.27%로 낮춰 상대적 감소율 31.1%를 기록했다.
  • SVHN에서 1,000개의 레이블 예제를 사용할 경우, UDA는 오차율을 3.53%에서 2.46%로 낮춰 상대적 감소율 30.3%를 기록했다.
  • ImageNet에서는 130만 개의 추가 레이블이 없는 이미지를 사용하여, 상위-1 정확도를 78.28%에서 79.04%로, 상위-5 정확도를 94.36%에서 94.45%로 향상시켰다.
  • UDA는 테스트된 여섯 개인 언어 및 세 개인 비전 벤치마크 전반에서 이전의 모든 방법보다 뛰어난 성능을 보였으며, 광범위한 효과성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.