Skip to main content
QUICK REVIEW

[論文レビュー] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Michael Tschannen, Alexey A. Gritsenko|ArXiv.org|Feb 20, 2025
Multimodal Machine Learning Applications被引用数 7
ひとこと要約

SigLIP 2は、デコーダー型事前学習、自己教師付き損失、データキュレーションを組み合わせて、多言語ビジョン言語エンコーダー系を導入し、多言語VLMの性能・密な特徴・局所化を向上させ、ネイティブアスペクト比と複数解像度に対応したNaFlex変種を提供します。

ABSTRACT

We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

研究の動機と目的

  • 英語中心のモデルを超えた多言語のビジョン-言語理解を促進する。
  • セグメンテーションと検出タスクのための局所化と密な特徴の品質を向上させる。
  • 多言語データとより堅牢なトレーニングレシピを備えた、SigLIPの後方互換性のある拡張を作成する。
  • ネイティブアスペクト比と可変解像度をサポートするNaFlexの派生を提供する。
  • 多言語能力を維持しつつ、蒸留と積極的データキュレーションによる小型モデルの効率化を実現する。

提案手法

  • LocCa風の目的で、SigLIPをデコーダー型事前学習(キャプション付与とグラウンディング)と組み合わせる。
  • 局所的意味論を高めるため、自己蒸留とマスク予測(SILC/TIPSに触発)を組み込む。
  • データキュレーションと英語/非英語のバランスを取った混合を用いた段階的なトレーニングレシピを採用する。
  • 解像度を意識したトレーニングを組み込んだ、ネイティブアスペクト比と可変解像度処理のNaFlexを導入する。
  • 積極的データキュレーション(ACID)を通じた蒸留を適用し、小型モデルの性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1多言語・オープンウェイトのビジョン言語エンコーダが、言語を跨いで最先端のゼロショット・検索性能を達成できるか?
  • RQ2デコーダー型事前学習と自己教師付きの局所-全体損失は、密な予測と局所化タスクを改善するか?
  • RQ3バイアス低減を伴う多言語トレーニングは、公平性と跨言語理解を改善し、英語の性能を犠牲にしないか?
  • RQ4単一のモデル変種で複数解像度をサポートし、ネイティブアスペクト比を効果的に保持できるか(NaFlex)?
  • RQ5積極的データキュレーションを介した蒸留が小型モデルのサイズに与える影響は?

主な発見

  • SigLIP 2は、言語を跨ぐゼロショット分類と検索でSigLIPおよびいくつかのオープンウェイトベースラインを上回る。
  • デコーダー型事前学習と自己教師付き損失は、局所化と密な予測性能を向上させる。
  • NaFlex派生は複数解像度を効果的に処理しネイティブアスペクト比を保持、OCR/文書重視のベンチマークで強力な検索性能を示す。
  • データデバイアス低減を伴う多言語トレーニングは、多言語理解と公平性を向上させ、SigLIPと比較して表現バイアスを低減する。
  • 小型モデル蒸留(ACID)はB/16およびB/32モデルの性能を向上させる。
  • SigLIP 2はVLMのビジョンエンコーダとして有効で、多様なタスクで下流転送を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。