QUICK REVIEW

[論文レビュー] Sigmoid Loss for Language Image Pre-Training

Xiaohua Zhai, Basil Mustafa|arXiv (Cornell University)|Mar 27, 2023

Multimodal Machine Learning Applications被引用数 12

ひとこと要約

本論文は、言語–画像事前学習のためのメモリ効率の高い sigmoid ベースの損失（Sigmoid loss）を提案し、大規模バッチ訓練を可能にし、より小さなバッチサイズ（例: 32k）で softmax 損失を上回ることが多く、強力なゼロショット性能を実現する。

ABSTRACT

We propose a simple pairwise Sigmoid loss for Language-Image Pre-training (SigLIP). Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise similarities for normalization. The sigmoid loss simultaneously allows further scaling up the batch size, while also performing better at smaller batch sizes. Combined with Locked-image Tuning, with only four TPUv4 chips, we train a SigLiT model that achieves 84.5% ImageNet zero-shot accuracy in two days. The disentanglement of the batch size from the loss further allows us to study the impact of examples vs pairs and negative to positive ratio. Finally, we push the batch size to the extreme, up to one million, and find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient. We release our models at https://github.com/google-research/big_vision and hope our research motivates further explorations in improving the quality and efficiency of language-image pre-training.

研究の動機と目的

画像-テキスト事前学習のための softmax ベースのコントラスト損失に対する、より単純でメモリ効率の高い代替案を提案する動機付け。
CLIP風および LiT風アーキテクチャにおいて、バッチサイズが sigmoid loss と softmax loss の相互作用にどのように影響するかを調査する。
限られた計算資源で強力なゼロショットおよび検索性能を達成する実用的な訓練設定を示す。
sigmoid ベースの事前学習におけるデータノイズへの頑健性と、陽性/陰性ペアの構成が与える影響を探る。

提案手法

すべての画像–テキストペアを独立した2値分類として扱う sigmoid ベースの損失を提案し、softmax ベースの InfoNCE による全体的なバッチ正規化を回避する。
初期訓練の安定化と収束の向上のため、学習可能なバイアス項 b と温度様のパラメータ t を導入する。
メモリ効率の高い“チャンク化”実装を提供し、偽陽性をデバイス間で処理して all-gathers を用いずに |B|^2 メモリを b^2 に削減する。
sigmoid loss を deux パイプラインに適用: SigLiT (LiT 風) および SigLIP (CLIP 風)。
512 から 1M までのバッチサイズ、言語（多言語設定）、モデルサイズにわたる広範な実験を実施し、softmax ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1特に小さなバッチサイズで、sigmoid loss は softmax loss と比較して言語–画像事前学習の品質を改善するか？
RQ2SigLiT/SigLIP の訓練時のバッチサイズが、性能、安定性、効率にどう影響するか？
RQ3sigmoid ベースの事前学習は、実用的なメモリと計算制約の下で非常に大きなバッチサイズにスケールできるか？
RQ4データノイズとバッチ組成（陽性/陰性の比率）が sigmoid ベースの事前学習に与える影響は？
RQ5多言語事前学習設定は sigmoid loss で同様に有効か、言語間で最適なバッチサイズは何か？

主な発見

バッチサイズが 16k 未満の場合、Sigmoid loss は softmax を上回るが、より大きなバッチサイズでは差が縮まる。
4 個の TPUv4 チップで訓練した SigLiT モデルは 84.5% の ImageNet ゼロショット精度（g/14, L model, 20k batch, 4 days）を達成。
B/8 および L* 構成の SigLiT モデルは、4 TPUv4 チップで1日後に 79.7% のゼロショット ImageNet を達成。
メモリ効率的なチャンク実装により、100万までのバッチサイズが実用可能だが、性能は 32k 付近で飽和する。32k は通常十分であり、SigLIP/SigLiT（多言語設定を含む）にとってしばしば最適である。
SigLIP (WebLI English データ) は 32k 未満のバッチサイズで CLIP ベースラインを上回り、より大きなバッチには大幅な効率向上とともにスケールする。多言語版（mSigLIP）は XM3600 で強力な結果を達成（例: Base モデルで XM3600 のテキスト対画像検索 34.9%）。
大規模バッチ訓練の安定化は、オプティマイザ β2 を下げることから利益を得る（例: Adam/AdaFactor の β2 を 0.999 から 0.95 に）。
バイアス項の初期化（b = -10, t′ = log 10）は、初期訓練の挙動と最終性能を一貫して改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。