[論文レビュー] SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More
SAM2-Adapter は SAM2 にマルチアダプタ設計を追加し、セグメンテーション backbone を下流タスクへ適応させ、カモフラージュ物体検出、影検知、ポリプ分割で新しいSOTAを達成します。
The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2), a successor with enhanced architecture and a larger training corpus, we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2-Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes. Code, pre-trained models, and data processing protocols are available at http://tianrun-chen.github.io/SAM-Adaptor/
研究の動機と目的
- SAM2 の難易度の高い下流セグメンテーションタスク(カモフラージュ、影、医用画像)での限界を評価する。
- マルチアダプタ戦略を用いてタスク特有の知識をSAM2と統合するSAM2-Adapterを開発する。
- CAMO/CAMO COD10K、ISTD 影検出、および kvasir-SEG ポリプ分割でのSOTA性能を実証する。
- SAM2 のバックボーンと専門的アダプタが、より良い一般化と組み合わせ性に寄与することを示す。
提案手法
- 凍結された Hiera 画像エンコーダをバックボーンとして、微調整された SAM2 マスクデコーダを用いる。
- 各ステージごとに2つのMLPからなるタスク特異的アダプタを導入し、F^i を介してプロンプト P^i を生成し、プロンプトベースの条件付けを可能にする。
- SAM2 の4つの階層ステージに合わせた4つのアダプタを使用(各ステージ内で共有)し、マルチ解像度特徴を活用する。
- 視覚的知識 F^i(例: F_hfc および F_pe)を結合してプロンプトを形成し、柔軟なタスク条件付けを可能にする(F_i = sum_j w_j F_j)。
- CODには BCE、影検出には BER、ポリプ分割には Dice/IoU など、適切な損失でタスク特異的な監督下で学習する。
- CAMO、CHAMELEON、COD10K(カモフラージドオブジェクト検出)、ISTD(影検出)、および kvasir-SEG(ポリプ分割)で評価する。
実験結果
リサーチクエスチョン
- RQ1より大きな学習コーパスとアーキテクチャにもかかわらず、SAM2 の下流セグメンテーションの課題は依然として存在するのか?
- RQ2マルチステージアダプタを備えた SAM2-Adapter はカモフラージュオブジェクト検出、影検出、ポリプ分割で最先端の結果を達成できるのか?
- RQ3性能とアダプタ構成の観点から、SAM2-Adapter は SAM-Adapter および SAM2 とどのように比較されるのか?
- RQ4性能向上はより強力な SAM2 バックボーン、アダプタアーキテクチャ、それとも両者の組み合わせによるものか?
主な発見
| 方法 | CHAMELEON S_alpha | CHAMELEON E_phi | CHAMELEON F^omega_beta | CHAMELEON MAE | CAMO S_alpha | CAMO E_phi | CAMO F^omega_beta | CAMO MAE | COD10K S_alpha | COD10K E_phi | COD10K F^omega_beta | COD10K MAE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SAM | 0.727 | 0.734 | 0.639 | 0.081 | 0.684 | 0.687 | 0.606 | 0.132 | 0.783 | 0.798 | 0.701 | 0.050 |
| SAM2 | 0.359 | 0.375 | 0.115 | 0.357 | 0.350 | 0.411 | 0.079 | 0.311 | 0.429 | 0.505 | 0.115 | 0.218 |
| SAM-Adapter | 0.896 | 0.919 | 0.824 | 0.033 | 0.847 | 0.873 | 0.765 | 0.070 | 0.883 | 0.918 | 0.801 | 0.025 |
| SAM2-Adapter (Ours) | 0.915 | 0.955 | 0.889 | 0.018 | 0.855 | 0.909 | 0.810 | 0.051 | 0.899 | 0.950 | 0.850 | 0.018 |
- SAM2-Adapter はカモフラージュ物体検出データセット(COD10K、CAMO)およびカモフラージュベンチマーク(CHAMELEON)でSOTA性能を達成。
- 影検出(ISTD)では、SAM2-Adapter は SAM-Adapter に匹敵する競争力のある結果を達成し、SAM2 バックボーンでの有効なプロンプティングを示している。
- ポリプ分割(kvasir-SEG)の場合、SAM2-Adapter は SAM-Adapter より優れており、医療分割タスクへの適応性が向上している。
- アブレーションでは、マルチアダプタ構成(4つのステージ特化アダプタ)と SAM2 バックボーンの両方が、単一アダプタや SAM2 単独の設定より性能向上に寄与することを示す。
- 表レベルの結果は、カモフラージュ物体検出タスクにおいて SAM、SAM2、SAM-Adapter を複数の指標で上回ることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。