[논문 리뷰] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
Mean Teacher: 학생 모델의 가중치를 EMA로 평균화하여 교사를 형성함으로써 더 높은 품질의 일관성 타깃을 제공하고 SVHN, CIFAR-10, ImageNet에서 반지도 학습을 개선하며 적은 라벨로도 학습을 가능하게 한다.
The recently proposed Temporal Ensembling has achieved state-of-the-art results in several semi-supervised learning benchmarks. It maintains an exponential moving average of label predictions on each training example, and penalizes predictions that are inconsistent with this target. However, because the targets change only once per epoch, Temporal Ensembling becomes unwieldy when learning large datasets. To overcome this problem, we propose Mean Teacher, a method that averages model weights instead of label predictions. As an additional benefit, Mean Teacher improves test accuracy and enables training with fewer labels than Temporal Ensembling. Without changing the network architecture, Mean Teacher achieves an error rate of 4.35% on SVHN with 250 labels, outperforming Temporal Ensembling trained with 1000 labels. We also show that a good network architecture is crucial to performance. Combining Mean Teacher and Residual Networks, we improve the state of the art on CIFAR-10 with 4000 labels from 10.55% to 6.28%, and on ImageNet 2012 with 10% of the labels from 35.24% to 9.11%.
연구 동기 및 목표
- 비라벨 데이터에 대한 예측 일관성을 강제하여 반지도 학습을 자극한다.
- 추가 학습 없이 타깃을 생성하는 가중치 평균 교사(Mean Teacher)를 제안한다.
- EMA 가중 타깃이 Temporal Ensembling과 Pi 모델에 비해 학습 속도와 정확성을 향상시킴을 보인다.
- 대규모 데이터셋과 현대 아키텍처(ResNet/ImageNet)에 대한 확장성을 보여준다.
- Mean Teacher에 대한 강건성과 중요한 하이퍼파라미터를 평가한다.
제안 방법
- 일관성 비용 J를 노이즈 하에서 학생과 교사 출력 간의 기대 제곱 거리로 정의한다.
- 타깃 생성 방식을 교사로써 학생 가중치의 EMA로 바꿔 매 학습 단계 후 업데이트를 가능하게 한다.
- 일치성 가중치의 증가율(ramp-up)을 사용하는 라벨링 분류 손실과 일관성 손실의 조합으로 학습한다.
- 다양한 라벨 수를 사용하는 SVHN과 CIFAR-10에서 13-레이어 ConvNet으로 Mean Teacher를 Pi 모델 및 Temporal Ensembling과 비교한다.
- CIFAR-10과 ImageNet에서 ResNet와 같은 잔차 네트워크로 Mean Teacher를 평가하여 확장성을 평가한다.
실험 결과
연구 질문
- RQ1가중치 평균화(MEAN TEACHER)가 타깃 예측 앙상블에 비해 반지도 학습을 향상시키는가?
- RQ2Mean Teacher가 대규모 데이터셋 및 온라인 학습으로 확장되며 비라벨 데이터를 효율적으로 활용할 수 있는가?
- RQ3일관성 가중치, EMA 감쇠 등의 하이퍼파라미터가 성능 및 학습 역학에 어떤 영향을 미치는가?
- RQ4분류 타깃과 일관성 타깃의 결합이 효과성에 어떤 영향을 주는가?
- RQ5Mean Teacher의 성능에 네트워크 아키텍처의 영향은 무엇인가?
주요 결과
| Dataset | Labels | Model | Error (%) |
|---|---|---|---|
| SVHN | 250 labels/73257 images | GAN | 18.44±4.8 |
| SVHN | 250 labels/73257 images | Pi model | 6.65±0.53 |
| SVHN | 250 labels/73257 images | Mean Teacher | 4.35±0.50 |
| SVHN | 1000 labels/73257 images | Pi model | 4.82±0.17 |
| SVHN | 1000 labels/73257 images | Mean Teacher | 3.95±0.19 |
| CIFAR-10 | 1000 labels/50000 images | Pi model | 12.36±0.31 |
| CIFAR-10 | 1000 labels/50000 images | Mean Teacher | 21.55±1.48 |
- Mean Teacher는 반지도 설정에서 Pi 모델 및 Temporal Ensembling에 비해 SVHN 및 CIFAR-10에서 테스트 정확도를 향상시킨다.
- 250라벨의 SVHN에서 Mean Teacher는 4.35% 오차로, Pi 모델의 6.65% 및 Temporal Ensembling의 5.12%에 비해 낮다.
- 1000/2000/4000 라벨의 CIFAR-10에서 Mean Teacher의 오차는 각각 12.31%, 15.73%, 12.31%로 나타나 일부 설정에서 Pi 모델 및 Temporal Ensembling을 능가한다; 4000 라벨에서 Mean Teacher는 12.31% 대 13.20%(Pi) 및 12.16%(Temporal Ensembling)이다.
- ResNet 아키텍처를 이용한 Mean Teacher는 강력한 결과를 보인다: CIFAR-10 4000 라벨에서 ResNet Mean Teacher = 6.28% 오차; ImageNet 10% 라벨에서 9.11% 검증 오차로 이전의 최첨단을 능가한다.
- Mean Teacher는 대규모 비라벨 데이터와 온라인 학습으로 확장 가능하며, 여러 시나리오에서 비라벨 데이터가 Pi 모델보다 성능을 더 효율적으로 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.