QUICK REVIEW

[논문 리뷰] Sigmoid Loss for Language Image Pre-Training

Xiaohua Zhai, Basil Mustafa|arXiv (Cornell University)|2023. 03. 27.

Multimodal Machine Learning Applications인용 수 12

한 줄 요약

논문은 언어-이미지 사전학습을 위한 메모리 효율적인 시그모이드 기반 손실(Sigmoid 손실)을 도입하여 대규모 배치 학습을 가능하게 하고, 작은 배치 크기(예: 32k)에서도 softmax 손실보다 종종 더 우수한 제로샷 결과를 낳는다.

ABSTRACT

We propose a simple pairwise Sigmoid loss for Language-Image Pre-training (SigLIP). Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise similarities for normalization. The sigmoid loss simultaneously allows further scaling up the batch size, while also performing better at smaller batch sizes. Combined with Locked-image Tuning, with only four TPUv4 chips, we train a SigLiT model that achieves 84.5% ImageNet zero-shot accuracy in two days. The disentanglement of the batch size from the loss further allows us to study the impact of examples vs pairs and negative to positive ratio. Finally, we push the batch size to the extreme, up to one million, and find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient. We release our models at https://github.com/google-research/big_vision and hope our research motivates further explorations in improving the quality and efficiency of language-image pre-training.

연구 동기 및 목표

softmax 기반 대비 손실에 비해 이미지-텍스트 사전학습의 더 간단하고 메모리 효율적인 대안을 제시한다.
CLIP 유사 및 LiT 유사 아키텍처에서 Sigmoid 손실과 softmax 손실 간 배치 크기의 상호 작용을 조사한다.
제한된 컴퓨트로도 강한 제로샷 및 검색 성능을 달성하는 실용적 학습 설정을 시연한다.
Sigmoid 기반 사전학습에서 데이터 노이즈의 강건성과 양/음성 쌍 구성이 미치는 영향을 탐구한다.

제안 방법

모든 이미지-텍스트 쌍을 독립적인 이진 분류로 취급하는 시그모이드 기반 손실을 제안하여 softmax 기반 InfoNCE에서 필요한 전역 배치 정규화를 회피한다.
학습 초기 안정화와 수렴 개선을 위한 학습 가능한 바이어스 항 b와 온도 유사 파라미터 t를 도입한다.
모든-모으기(all-gathers) 없이 디바이스 간 부정 샘플을 처리하여 |B|^2 메모리를 b^2로 축소하는 메모리 효율적 분할(chunked) 구현을 제공한다.
Sigmoid 손실을 SigLiT(LiT 스타일) 및 SigLIP(CLiP 스타일) 두 가지 언어-이미지 사전학습 파이프라인에 적용한다.
배치 크기를 512에서 1M까지, 다국어 설정, 모델 크기에 대한 광범위한 실험을 수행하여 softmax 기준선과 비교한다.

실험 결과

연구 질문

RQ1시그모이드 손실이 작은 배치 크기에서 softmax 손실과 비교하여 언어–이미지 사전학습 품질을 향상시키는가?
RQ2SigLiT/SigLIP의 학습 배치 크기가 성능, 안정성, 효율성에 어떤 영향을 미치는가?
RQ3실용적인 메모리 및 컴퓨트 제약 하에서 시그모이드 기반 사전학습이 매우 큰 배치 크기로 확장될 수 있는가?
RQ4데이터 노이즈와 배치 구성(양/음성 비율)이 시그모이드 기반 사전학습에 미치는 영향은 무엇인가?
RQ5다국어 사전학습 설정이 시그모드 손실에서도 동일하게 효과적인가, 언어 간 최적 배치 크기는 무엇인가?

주요 결과

시그모이드 손실은 배치 크기가 16k 미만일 때 softmax보다 우수하며, 큰 배치 크기에서 차이가 줄어든다.
네 개의 TPUv4 칩에서 학습된 SigLiT 모델은 84.5%의 ImageNet 제로샷 정확도(g/14, L 모델, 20k 배치, 4일)를 달성했다.
B/8 및 L* 구성의 SigLiT 모델은 네 TPUv4 칩에서 1일 만에 79.7% 제로샷 ImageNet에 도달했다.
메모리 효율적인 청크(chunked) 구현으로 100만까지의 배치 크기가 가능하지만 성능은 보통 32k에서 포화에 이르며, SigLIP/SigLiT의 경우 32k-32k가 일반적으로 충분하고 다국어 설정에서도 종종 최적이다.
SigLIP(WebLI 영어 데이터)은 32k 미만 배치 크기에서 CLIP 기준선을 능가하고 더 큰 배치로 확장되며 상당한 효율 향상을 달성한다; 다국어 변형(mSigLIP)은 XM3600에서 강력한 XM3600 결과를 얻는다(예: Base 모델에서 텍스트-이미지 검색 34.9%).
대형 배치 학습의 안정성은 옵티마이저 β2를 낮추면 이점이 생긴다(예: Adam/AdaFactor β2를 0.999에서 0.95로).
바이어스 항 초기화(b = -10, t′ = log 10)가 초기 학습 동작과 최종 성능을 일관되게 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.