Skip to main content
QUICK REVIEW

[논문 리뷰] Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning

Mehdi S. M. Sajjadi, Mehran Javanmardi|arXiv (Cornell University)|2016. 06. 14.
Domain Adaptation and Few-Shot Learning참고 문헌 37인용 수 551
한 줄 요약

이 논문은 같은 샘플에 대해 여러 개의 확률적 패스의 예측 차이를 최소화하여 CNN을 규제하는 비감독 손실을 도입하고, 제한된 라벨 데이터로도 반지도 학습을 향상시킬 수 있게 한다.

ABSTRACT

Effective convolutional neural networks are trained on large sets of labeled data. However, creating large labeled datasets is a very costly and time-consuming task. Semi-supervised learning uses unlabeled data to train a model with higher accuracy when there is a limited set of labeled data available. In this paper, we consider the problem of semi-supervised learning with convolutional neural networks. Techniques such as randomized data augmentation, dropout and random max-pooling provide better generalization and stability for classifiers that are trained using gradient descent. Multiple passes of an individual sample through the network might lead to different predictions due to the non-deterministic behavior of these techniques. We propose an unsupervised loss function that takes advantage of the stochastic nature of these methods and minimizes the difference between the predictions of multiple passes of a training sample through the network. We evaluate the proposed method on several benchmark datasets.

연구 동기 및 목표

  • 라벨 데이터가 부족할 때 CNN 일반화를 향상시키기 위해 라벨이 없는 데이터를 활용하는 동기를 제시한다.
  • 학습 중 비결정적 변환 및 섭동을 활용하는 비감독 손실을 제안한다.
  • 라벨 없이 학습을 이끌기 위해 변환/안정성 손실을 상호배제 손실과 결합한다.
  • 두 가지 CNN 구현을 사용하여 여러 데이터셋과 아키텍처 전반에서 효과를 보임을 보여준다.

제안 방법

  • 랜덤 변환 T^j(x_i) 및 네트워크 섭동하에 같은 샘플의 여러 패스에서 얻은 예측 간의 평균 제곱 차이를 최소화하는 비감독 손실을 정의한다.
  • 변환/안정성 손실 l_U^TS 를 모든 패스 쌍에 걸친 차이의 제곱 합으로 표현한다(Equation 1).
  • 사소한(트리비얼) 예측 벡터를 방지하기 위한 상호배제 손실 l_U^ME 를 도입한다(Equation 2).
  • 손실들을 l_U = λ1 l_U^ME + λ2 l_U^TS (Equation 3) 로 결합한다.
  • 미니배치 내에 복제 샘플을 포함시켜 지도 학습 손실과 배치 학습과의 호환성을 보인다.
  • 두 가지 CNN 구현(cuda-convnet AlexNet 변형과 분수 최대풀링이 포함된 희소 합성곱 네트워크)에 대해 논의하고, 프레임워크 제약에 따라 샘플당 패스 수 n을 어떻게( n=4 또는 n=5 ) 선택하는지 설명한다.

실험 결과

연구 질문

  • RQ1확률적 변환과 네트워크 섭동에 걸친 일관성을 강제하는 비감독 손실이 반지도 CNN 성능을 개선할 수 있는가?
  • RQ2레이블이 부족할 때 상호배제 손실과 변환/안정성 손실의 결합이 학습에 어떤 영향을 미치는가?
  • RQ3제안된 손실이 데이터셋(MNIST, SVHN, NORB, CIFAR-10/100, ImageNet) 및 아키텍처 전반에서 일반화되는가?
  • RQ4패스 수와 데이터 증강 전략이 수렴성과 정확도에 미치는 영향은 무엇인가?

주요 결과

  • 변환/안정성 손실과 상호배제 손실은 라벨 데이터가 제한된 여러 데이터셋에서 지속적으로 테스트 정확도를 향상시킨다.
  • 두 비감독 손실의 조합은 각각의 손실보다 더 큰 이득을 제공하며, 특히 라벨이 매우 작은 세트에서 더 두드러진다.
  • 복제 패스를 사용하면 오류율이 크게 감소한다(예: SVHN 및 NORB에서 1%–5% 라벨 데이터 사용 시 눈에 띄는 향상).
  • 데이터 증강 및 드롭아웃/RP 와 결합될 때 CIFAR-10/100, ImageNet 등 여러 벤치마크에서 경쟁력 있거나 최첨단 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.