QUICK REVIEW

[논문 리뷰] Big Self-Supervised Models are Strong Semi-Supervised Learners

Ting Chen, Simon Kornblith|arXiv (Cornell University)|2020. 06. 17.

Domain Adaptation and Few-Shot Learning참고 문헌 66인용 수 476

한 줄 요약

논문은 SimCLRv2를 제안합니다. 이는 세 단계의 준감독 학습 프레임워크로, 큰 모델로의 비지도 사전학습, 소량 라벨로의 감독형 미세조정, 그리고 비라벨 데이터를 이용한 증류를 포함하여, 레스넷-50의 경우 라벨이 매우 적은 상황에서도 ImageNet에서 최첨단 성능을 달성합니다. 예를 들어, 1% 라벨에서 top-1 73.9%, 10% 라벨에서 top-1 77.5%를 얻고, 증류 후에 이 수치는 더 개선됩니다.

ABSTRACT

One paradigm for learning from few labeled examples while making best use of a large amount of unlabeled data is unsupervised pretraining followed by supervised fine-tuning. Although this paradigm uses unlabeled data in a task-agnostic way, in contrast to common approaches to semi-supervised learning for computer vision, we show that it is surprisingly effective for semi-supervised learning on ImageNet. A key ingredient of our approach is the use of big (deep and wide) networks during pretraining and fine-tuning. We find that, the fewer the labels, the more this approach (task-agnostic use of unlabeled data) benefits from a bigger network. After fine-tuning, the big network can be further improved and distilled into a much smaller one with little loss in classification accuracy by using the unlabeled examples for a second time, but in a task-specific way. The proposed semi-supervised learning algorithm can be summarized in three steps: unsupervised pretraining of a big ResNet model using SimCLRv2, supervised fine-tuning on a few labeled examples, and distillation with unlabeled examples for refining and transferring the task-specific knowledge. This procedure achieves 73.9% ImageNet top-1 accuracy with just 1% of the labels ($\le$13 labeled images per class) using ResNet-50, a $10 imes$ improvement in label efficiency over the previous state-of-the-art. With 10% of labels, ResNet-50 trained with our method achieves 77.5% top-1 accuracy, outperforming standard supervised training with all of the labels.

연구 동기 및 목표

사전학습에서 task-agnostic 비라벨 데이터의 활용을 통해 컴퓨터 비전에서 반감된 준지도 학습의 가능성을 평가하고 동기를 부여합니다.
모델 크기, 깊이, 투사 헤드 설계가 준지도 성능에 미치는 영향을 조사합니다.
비라벨 데이터를 이용한 증류가 작은 모델로의 지식 전이 및 태스크-특정 성능 향상에 기여하는지 보여줍니다.
더 크고 자기지도 사전학습 모델이 미세조정 중 라벨 효율성을 향상시키는지 보여줍니다.

제안 방법

비지도 사전학습을 위해 대형 ResNet 백본에서 개선된 대조학습 프레임워크인 SimCLRv2를 채택합니다.
사전학습된 모델을 1% 또는 10%의 제한된 라벨 데이터로 미세조정하되, 중간 층 투사 헤드를 활용해 성능을 높입니다.
교사가 (미세조정된 모델) 레이블을 예측하는 방식으로 학생 모델에게 태스크-특정 지식을 전달하는 비라벨 데이터를 이용한 증류를 적용합니다.
더 크고 깊은 네트워크, 선택적 커널(SK), 더 깊은 투사 헤드가 선형 평가와 미세조정 성능 모두를 최적화하도록 실험합니다.
전처리에서 MoCo의 메모리 뱅크와 3-층 MLP 투사 헤드를 사용하고, 미세조정은 투사 헤드의 중간 층에서 시작하며, ground-truth 라벨에 의존하지 않는 증류 손실(온도 조절 포함)을 적용합니다.
1%, 10%, 전체 라벨 설정에서 ImageNet 성능을 보고하고, 기존의 SOTA 준지도 방법과 비교합니다.

실험 결과

연구 질문

RQ1라벨이 부족한 상황에서 더 크고 넓은 모델의 비지도 사전학습이 ImageNet에서 준지도 성능을 향상시키는가?
RQ2투사 헤드 깊이와 미세조정 시작 지점이 준지도 학습 성능에 어떤 영향을 미치는가?
RQ3비라벨 데이터를 이용한 증류가 태스크-특정 성능 향상과 작은 모델로의 전이에서 도움이 되는가?

주요 결과

Method	Architecture	Top-1 (1%)	Top-5 (1%)	Top-1 (10%)	Top-5 (10%)
Supervised baseline [30]	ResNet-50	25.4	56.4	48.4	80.4
SimCLRv2 distilled (ours)	ResNet-50	73.9	77.5	91.5	93.4
SimCLRv2 distilled (ours)	ResNet-50 (2x + SK)	75.9	80.2	93.0	95.0
SimCLRv2 self-distilled (ours)	ResNet-152 (3x + SK)	76.6	80.9	93.4	95.5

더 큰 자기지도 모델은 더 적은 라벨로 미세조정될 때 더 큰 이득을 가져와 라벨 효율성을 크게 향상시킵니다.
투사 헤드의 깊이와 중간 층에서의 미세조정은 특히 라벨이 제한된 상황에서 성능을 크게 높일 수 있습니다.
비라벨 데이터를 이용한 증류는 준지도 학습을 개선합니다. 대형에서 소형으로의 증류는 태스크 지식을 컴팩트 모델로 전달합니다.
SimCLRv2 선형 평가에서 top-1 정확도 79.8%에 도달합니다. 1% 및 10% 라벨과 증류를 사용할 때 각각 76.6%와 80.9%의 top-1을 달성하며, 증류된 ResNet-50은 73.9%(1%)와 77.5%(10%)를 달성합니다.
전체 라벨로 학습된 감독된 ResNet-50(76.6% top-1)과 비교할 때, 라벨 부족 상황에서 제시된 방법은 상당한 이득을 제공합니다.
비라벨 데이터를 이용한 증류는 학생이 교사와 비슷한 아키텍처를 공유하더라도 강력한 성능을 낼 수 있어 효율적인 배포가 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.