[논문 리뷰] Selfie: Self-supervised Pretraining for Image Embedding
Selfie는 같은 이미지의 distractor 패치를 활용한 마스킹 패치 예측 작업으로 이미지 인코더를 프리트레이닝하여 라벨링 데이터가 제한된 경우에도 다운스트림 정확도와 학습 안정성을 향상시킵니다.
We introduce a pretraining technique called Selfie, which stands for SELFie supervised Image Embedding. Selfie generalizes the concept of masked language modeling of BERT (Devlin et al., 2019) to continuous data, such as images, by making use of the Contrastive Predictive Coding loss (Oord et al., 2018). Given masked-out patches in an input image, our method learns to select the correct patch, among other "distractor" patches sampled from the same image, to fill in the masked location. This classification objective sidesteps the need for predicting exact pixel values of the target patches. The pretraining architecture of Selfie includes a network of convolutional blocks to process patches followed by an attention pooling network to summarize the content of unmasked patches before predicting masked ones. During finetuning, we reuse the convolutional weights found by pretraining. We evaluate Selfie on three benchmarks (CIFAR-10, ImageNet 32 x 32, and ImageNet 224 x 224) with varying amounts of labeled data, from 5% to 100% of the training sets. Our pretraining method provides consistent improvements to ResNet-50 across all settings compared to the standard supervised training of the same network. Notably, on ImageNet 224 x 224 with 60 examples per class (5%), our method improves the mean accuracy of ResNet-50 from 35.6% to 46.7%, an improvement of 11.1 points in absolute accuracy. Our pretraining method also improves ResNet-50 training stability, especially on low data regime, by significantly lowering the standard deviation of test accuracies across different runs.
연구 동기 및 목표
- 이미지 모델의 라벨링 데이터 의존도를 줄이기 위해 비라벨링 데이터를 활용하는 동기를 제시한다.
- 연속 이미지 데이터에 마스크드 언어 모델링 개념을 확장한다.
- 마스킹된 영역을 채우기 위해 대조적 분류를 포함하는 패치 기반 인코더–디코더를 제안한다.
- Fine-tuning 동안 부분 네트워크를 재사용하여 효율적인 프리트레이닝을 가능하게 한다.
- 저라벨 조건에서 CIFAR-10, ImageNet-32, ImageNet-224 전반에 걸친 이득을 입증한다.
제안 방법
- 패치 처리 네트워크 P(ResNet-50의 처음 세 블록)로 이미지 패치를 인코딩한다.
- 패치 표현을 주의풀링 네트워크 A(Transformer 기반)로 풀링한다.
- 이미지 패치의 일부를 마스킹하고 디코더가 같은 이미지에서 distractor 중에서 올바른 패치를 식별하도록 교차 엔트로피 손실을 사용한다.
- 사전 학습 시 인코더와 디코더를 함께 학습시키고, 파인튜닝 시 사전 학습된 P를 재사용하고 엔드-투-엔드 파인튜닝으로 전체 이미지 ResNet-50을 적용한다.
- 패치에 위치 임베딩을 사용하고(이미지 크기에 의존) 부분적 파라미터 공유를 통해 계산량을 줄인다.
- 사전 학습 중 디코더가 여러 올바른 패치를 동시에 예측하여 인코더 계산을 재활용한다.
실험 결과
연구 질문
- RQ1패치 수준의 마스킹과 distractor로의 자체 감독 프리트레이닝이 다운스트림 작업을 위한 이미지 표현력을 개선하는가?
- RQ2Selfie는 다양한 라벨 데이터 regime에서 완전히 감독 학습 기준선과 비교하여 어떤 성능을 보이는가?
- RQ3프리트레이닝이 훈련 안정성과 실행 간의 변동성에 미치는 영향은 무엇인가?
- RQ4주의 풀링과 하이브리드 합성-합성 아키텍처가 파인튜닝에 미치는 효과는 무엇인가?
- RQ5라벨 데이터에 비해 비라벨 데이터의 풍부함이 Selfie의 이득에 어떤 영향을 미치는가?
주요 결과
| 데이터셋 | 라벨 데이터 비율 | 감독 학습 | Selfie 사전학습 | Δ (Selfie - 감독) |
|---|---|---|---|---|
| CIFAR-10 | 5% | 75.9 ± 0.7 | 75.9 ± 0.4 | 0.0 |
| CIFAR-10 | 8% | 79.3 ± 1.0 | 80.3 ± 0.3 | +1.0 |
| CIFAR-10 | 20% | 88.3 ± 0.3 | 89.1 ± 0.5 | +0.8 |
| CIFAR-10 | 100% | 95.5 ± 0.2 | 95.7 ± 0.1 | +0.2 |
| ImageNet-32×32 | 5% | 13.1 ± 0.8 | 18.3 ± 0.1 | +5.2 |
| ImageNet-32×32 | 10% | 25.9 ± 0.5 | 30.2 ± 0.5 | +4.3 |
| ImageNet-32×32 | 20% | 32.7 ± 0.4 | 33.5 ± 0.2 | +0.8 |
| ImageNet-32×32 | 100% | 55.7 ± 0.6 | 56.4 ± 0.6 | +0.7 |
| ImageNet-224×224 | 5% | 35.6 ± 0.7 | 46.7 ± 0.4 | +11.1 |
| ImageNet-224×224 | 10% | 59.6 ± 0.2 | 61.9 ± 0.2 | +2.3 |
| ImageNet-224×224 | 20% | 65.7 ± 0.2 | 67.1 ± 0.2 | +1.4 |
| ImageNet-224×224 | 100% | 76.9 ± 0.2 | 77.0 ± 0.1 | +0.1 |
- Selfie는 라벨 데이터가 줄어들수록 CIFAR-10, ImageNet-32, ImageNet-224 전반에서 일관된 정확도 상승을 보인다.
- 5% 라벨 데이터로 수행한 ImageNet-224×224에서 정확도가 35.6%(감독 학습)에서 46.7%(Selfie)로 상승하여 11.1포인트의 이득을 보인다.
- 프리트레이닝은 테스트 정확도 편차를 줄이고 특히 저데이터 구간에서 학습 안정성을 향상시킨다.
- 클래스당 60개의 라벨 예제를 갖는 ImageNet-224×224에서 상당한 이득(11.1포인트)과 라벨 데이터 증가에 따른 이득 감소가 관찰된다.
- Selfie로 파인튜닝된 하이브리드 ResNet-36 + 주의 풀링은 일부 저데이터 시나리오에서 ResNet-50보다 우수할 수 있다.
- Selfie는 이미지넷에서 기존의 비지도 프리트레이닝 결과를 능가하여 라벨이 없는 데이터의 표현 학습 활용이 효과적임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.