Skip to main content
QUICK REVIEW

[논문 리뷰] SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More

Tianrun Chen, Ankang Lu|arXiv (Cornell University)|2024. 08. 08.
Visual Attention and Saliency Detection인용 수 7
한 줄 요약

SAM2-Adapter는 다중 어댑터 설계를 통해 SAM2의 세분화 백본을 다운스트림 태스크에 맞춰 확장하여 CAMO, 그림자 탐지, 및 용종(se segmentation) 분할에서 새로운 SOTA 결과를 달성한다.

ABSTRACT

The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2), a successor with enhanced architecture and a larger training corpus, we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2-Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes. Code, pre-trained models, and data processing protocols are available at http://tianrun-chen.github.io/SAM-Adaptor/

연구 동기 및 목표

  • 도전적인 다운스트림 세분화 태스크(위장, 그림자, 의료 영상)에서 SAM2의 한계를 평가한다.
  • 다중 어댑터 전략을 사용해 작업 특유의 지식을 SAM2와 통합하기 위해 SAM2-Adapter를 개발한다.
  • CAMO/CAMO COD10K, ISTD 그림자 탐지, 및 kvasir-SEG 용종 분할에서 SOTA 성능을 입증한다.
  • SAM2의 백본과 특화 어댑터로부터 이득을 얻어 일반화성과 구성 가능성을 향상시킨다는 것을 보여준다.

제안 방법

  • 고정된 Hiera 이미지 인코더를 갖춘 백본으로 SAM2를 사용하고, 미세 조정된 SAM2 마스크 디코더를 사용한다.
  • F^i를 통해 프롬프트 P^i를 생성하기 위해 단계당 두 개의 MLP로 구성된 작업 특화 어댑터를 도입하여 프롬프트 기반 조건화를 가능하게 한다.
  • SAM2의 네 계층적 단계에 맞춰(각 단계 내에서 공유되는) 네 개의 어댑터를 사용해 다중 해상도 특성을 활용한다.
  • 시각적 지식 F^i를 결합하여 프롬프트를 형성하고, 유연한 작업 조건화를 가능하게 한다(F_i = sum_j w_j F_j).
  • 적절한 손실 함수를 사용한 작업 특화 감독으로 학습한다(예: COD의 BCE, 그림자 탐지의 BER, 용종 분할의 Dice/IoU).
  • CAMO, CHAMELEON, COD10K(위장 물체 탐지), ISTD(그림자 탐지), 및 kvasir-SEG(용종 분할)에서 평가한다.

실험 결과

연구 질문

  • RQ1더 큰 학습 말뭉치와 아키텍처에도 불구하고 다운스트림 세분화에서 SAM2의 도전 과제가 지속되는가?
  • RQ2다중 스테이지 어댑터를 갖춘 SAM2-Adapter가 위장 물체 탐지, 그림자 탐지, 및 용종 분할에서 SOTA를 달성할 수 있는가?
  • RQ3성능 및 어댑터 구성 측면에서 SAM-Adapter 및 SAM2와 SAM2-Adapter의 비교는 어떠한가?
  • RQ4성능 향상은 더 강력한 SAM2 백본 때문인가, 어댑터 아키텍처 때문인가, 아니면 이 둘의 조합 때문인가?

주요 결과

  • SAM2-Adapter는 CAMO/COD10K 및 CHAMELEON과 같은 위장 물체 탐지 데이터셋 및 벤치마크에서 SOTA 성능을 달성한다.
  • 그림자 탐지(ISTD)에서 SAM2-Adapter는 SAM-Adapter에 상응하는 경쟁력을 보이며, SAM2 백본으로의 효과적인 프롬퓨팅을 입증한다.
  • 용종 분할(kvasir-SEG)에서 SAM2-Adapter가 SAM-Adapter보다 우수하여 의료 분할 작업에 더 나은 적응을 시사한다.
  • 삭제 실험은 다중 어댑터 구성(네 단계별 어댑터)과 SAM2 백본이 단일 어댑터 또는 SAM2-만 설정에 비해 성능 향상에 기여함을 보여준다.
  • 표 단위 결과는 CAMO/ COD10K 등 위장 물체 탐지 작업에서 SAM2-Adapter가 SAM, SAM2, SAM-Adapter를 여러 지표에서 능가함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.