[논문 리뷰] Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision
이 논문은 10-billion-parameter 비전 모델을 self-supervised learning으로 수십억 개의 비선별된 인터넷 이미지에서 학습시켜 감독 학습이나 ImageNet 기반 사전 학습에 비해 강건성, 공정성, 및 더 넓은 의미를 포착하는 능력이 향상되었습니다.
Discriminative self-supervised learning allows training models on any random group of internet images, and possibly recover salient information that helps differentiate between the images. Applied to ImageNet, this leads to object centric features that perform on par with supervised features on most object-centric downstream tasks. In this work, we question if using this ability, we can learn any salient and more representative information present in diverse unbounded set of images from across the globe. To do so, we train models on billions of random images without any data pre-processing or prior assumptions about what we want the model to learn. We scale our model size to dense 10 billion parameters to avoid underfitting on a large data size. We extensively study and validate our model performance on over 50 benchmarks including fairness, robustness to distribution shift, geographical diversity, fine grained recognition, image copy detection and many image classification datasets. The resulting model, not only captures well semantic information, it also captures information about artistic style and learns salient information such as geolocations and multilingual word embeddings based on visual content only. More importantly, we discover that such model is more robust, more fair, less harmful and less biased than supervised models or models trained on object centric datasets such as ImageNet.
연구 동기 및 목표
- 전 세계의 다양하고 비선별 이미지 데이터에서 학습된 자기지도 비전 모델이 학습하는 특성을 조사한다.
- 확대된 규모(최대 10B 매개변수)가 강건성, 공정성 및 도메인 밖 작업에 대한 일반화에 어떤 영향을 미치는지 평가한다.
- 다운스트림 작업에서 성별, 피부톤, 지리, 연령 간의 공정성과 편향을 정량화한다.
- 시각적 신호만으로 지리 위치나 다국어 콘텐츠와 같은 비대상물 중심 정보를 모델이 인코딩하는지 탐구한다.
제안 방법
- 1B개의 비선별 인스타그램 이미지에 대해 데이터 선처리 없이 SwAV 자체 감독 학습으로 10B-parameter RegNet-Y 아키텍처를 학습시킨다.
- 대형 모델 학습을 가능하게 하기 위해 496개의 GPU에 걸친 Fully Sharded Data Parallel (FSDP)을 사용하고 메모리를 관리하기 위해 동적 활성 체크포인팅을 적용한다.
- 16,000개의 프로토타입, 온도 0.1, 10 Sinkhorn 반복으로 SwAV를 도입하여 프로토타입 배정을 학습한다.
- 사전 학습된 모델을 ~50개 이상의 벤치마크에서 평가하여 공정성, 강건성, 지리적 다양성, 정밀 인식, 이미지 복제 탐지 등을 포함한다.
- SEER(Self-supervised, uncurated data)를 다수의 다운스트림 작업에서 감독형 ImageNet 사전 학습 및 self-supervised ImageNet 사전 학습과 비교한다.
실험 결과
연구 질문
- RQ1전 세계에서 수십억 개의 비선별 이미지로 학습될 때, 자가 지도 비전 모델에서 어떤 두드러진 정보와 변화 요인이 나타나는가?
- RQ2매우 대규모 모델 용량을 가진 다양하고 비선별 데이터로의 학습이 객체 중심의 감독 데이터셋과 비교해 강건성, 공정성 및 편향 감소를 가져오는가?
- RQ3이러한 모델이 시각 데이터만으로 비대상물 지시 신호(예: 지리 위치, 예술적 스타일, 다국어 단어 포함)를 얼마나 포착하는가?
주요 결과
- 자체 감독 사전 학습이 무작위 인터넷 이미지에서 학습될 때, 감독형 또는 객체 중심 사전 학습 모델보다 더 공정하고 편향이 적으며 해로운 정도가 낮은 모델을 생성한다.
- 더 큰 모델(10B 매개변수)은 임베딩에서 성별 및 피부톤 간의 차이를 줄이고 모델 크기가 커질수록 공정성을 향상시킨다.
- 데이터 세트의 다양성을 활용하여 더 강건한 특징을 학습하고 50개 이상의 벤치마크에서 Out-Of-Distribution 일반화를 개선할 수 있다.
- SEER는 시각적 콘텐츠만으로 지리 위치와 다국어 단어 임베딩 같은 비전통적 신호를 포착한다.
- 훈련 데이터의 지리적 및 인구통계적 다양성은 지역별 객체 인식 성능과 지리적 공정성을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.