[論文レビュー] SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
SAM-CLIP は SAM と CLIP をマルチタスク蒸留とリプレイを通じて単一の ViT バックボーンに統合し、ゼロショット分類、インスタンス分割、そしてメモリと計算量を削減した状態で最先端のゼロショットセマンティック分割を実現します。
The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that absorbs their expertise. Our method integrates techniques of multi-task learning, continual learning, and distillation. Further, it demands significantly less computational cost compared to traditional multi-task training from scratch, and it only needs a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we obtain SAM-CLIP: a unified model that combines the capabilities of SAM and CLIP into a single vision transformer. Compared with deploying SAM and CLIP independently, our merged model, SAM-CLIP, reduces storage and compute costs for inference, making it well-suited for edge device applications. We show that SAM-CLIP not only retains the foundational strengths of SAM and CLIP, but also introduces synergistic functionalities, notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
研究の動機と目的
- 視覚ファウンデーションモデルを統合して意味的理解と空間的理解を組み合わせる動機付け。
- 忘却を最小限に抑えつつ VFMs を統合するための効率的なリハーサルベースの蒸留法を提案する。
- SAM-CLIP を単一のバックボーンとして示し、ゼロショット分類、インスタンス分割、セマンティック分割を実現する。
- 統合モデルがより豊かな表現と新しいゼロショット機能を生み出すことを示す。
- 低いストレージおよび計算要件を通じてエッジデバイス適性を評価する。
提案手法
- SAM を基盤 VFM として CLIP をそのバックボーンにマルチヘッド構造で統合する。
- 2 段階の訓練を適用: CLIP ヘッドのヘッドプロービング、次にリプレイデータを用いたマルチタスク蒸留。
- リプレイデータ上で KL 型コサイン損失と SAM 固有の蒸留損失を用いて CLIP と SAM の知識を蒸留する。
- 画像以外のモダリティエンコーダを凍結し、画像バックボーンとヘッドは忘却を防ぐために学習率を低くして学習を許可する。
- 2 データセットリプレイ戦略を利用: CLIP 蒸留用データ D_CLIP と SAM 蒸留用データ D_SAM、結合最適化 L_CLIP + lambda L_SAM。
- CLIP(低解像度)と SAM(1024px)訓練を整合させるため、2 つの解像度戦略と解像度適応を採用。
- 分類、インスタンス分割、セマンティック分割をサポートする単一バックボーンの推論パイプラインを提示。
実験結果
リサーチクエスチョン
- RQ1破壊的忘却なしに、2 つの異なる視覚ファウンデーションモデル(SAM と CLIP)を単一のバックボーンに統合できるか?
- RQ2リハーサルベースのマルチタスク蒸留法は知識を効果的に移転し、元の機能を保持するか?
- RQ3SAM-CLIP はゼロショットのセマンティックセグメンテーションを可能にし、複数のベンチマークでタスク固有モデルを上回るか?
- RQ4統合モデルはエッジデバイスに対して、別々にデプロイする場合よりもストレージと計算効率の面で優れているか?
- RQ5統合モデルからどのような表現が生まれ、それらが下流タスクをどう支援するか?
主な発見
- SAM-CLIP は SAM と CLIP のコアとなるゼロショット機能を最小限の忘却で保持する。
- 統合モデルはベースライン VFM と比較してゼロショット分類とインスタンス分割の競争力のある結果を達成する。
- SAM-CLIP は5つのデータセットにおいてゼロショットセマンティックセグメンテーションで最先端の性能を達成する。
- ヘッドプロービングは SAM-CLIP の表現が、セマティックおよび空間タスクの双方で、単独の SAM または CLIP よりも豊かであることを示す。
- 解像度適応訓練により、CLIP 系タスクを 224/336/448px、SAM タスクを 1024px で動作させることを可能にする。
- SAM-CLIP 内で CLIP ヘッドと SAM ヘッドを組み合わせることでゼロショット分割品質をさらに向上させることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。