Skip to main content
QUICK REVIEW

[논문 리뷰] SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More

Tianrun Chen, Lanyun Zhu|arXiv (Cornell University)|2023. 04. 18.
Visual Attention and Saliency Detection인용 수 40
한 줄 요약

SAM-Adapter는 경량의 태스크 특화 어댑터를 통해 SAM 백본의 세그멘테이션 성능을 향상시키고, 카모플라주, 그림자, 의학 영상과 같은 도전적 장면에서 여러 데이터셋에서 최첨단 결과를 달성한다.

ABSTRACT

The emergence of large models, also known as foundation models, has brought significant advancements to AI research. One such model is Segment Anything (SAM), which is designed for image segmentation tasks. However, as with other foundation models, our experimental findings suggest that SAM may fail or perform poorly in certain segmentation tasks, such as shadow detection and camouflaged object detection (concealed object detection). This study first paves the way for applying the large pre-trained image segmentation model SAM to these downstream tasks, even in situations where SAM performs poorly. Rather than fine-tuning the SAM network, we propose extbf{SAM-Adapter}, which incorporates domain-specific information or visual prompts into the segmentation network by using simple yet effective adapters. By integrating task-specific knowledge with general knowledge learnt by the large model, SAM-Adapter can significantly elevate the performance of SAM in challenging tasks as shown in extensive experiments. We can even outperform task-specific network models and achieve state-of-the-art performance in the task we tested: camouflaged object detection, shadow detection. We also tested polyp segmentation (medical image segmentation) and achieves better results. We believe our work opens up opportunities for utilizing SAM in downstream tasks, with potential applications in various fields, including medical image processing, agriculture, remote sensing, and more.

연구 동기 및 목표

  • SAM이 성능이 떨어지는 도전적 세그멘테이션 작업(camouflage, shadow, medical images)에서의 성능을 평가한다.
  • SAM-Adapter를 제안하여 백본을 미세조정하지 않고도 경량 어댑터를 통해 태스크 특화 정보를 SAM에 주입한다.
  • 카모플라주 객체 탐지, 그림자 탐지, 용종 분할 데이터세트에서의 성능 향상을 입증한다.
  • SAM-Adapter가 태스크 특정 모델보다 우수하거나 경쟁력 있는 최첨단 결과를 달성할 수 있음을 보인다.

제안 방법

  • SAM을 고정된 백본(ViT-H/16)으로 사용하고 마스크 디코더를 초기화한 후 경미하게 미세조정한다.
  • SAM-Adapter를 도입한다: 태스크 특화 시각 프롬프트를 생성하는 두 개의 MLP 기반 모듈이 있는 경량 아키텍처.
  • 어댑터에 태스크 특화 정보 F^i(예: 고주파 성분 및 패치 임베딩)를 통합하여 SAM 계층용 프롬프트 P^i를 생성한다.
  • 프롬프트 P^i를 트랜스포머 계층에 부착하여 downstream 태스크로 SAM을 유도한다.
  • 정보 F^i의 구성은 F^i = sum_j w_j F_j로 되어 가이던스 유형을 결합할 수 있도록 유연하게 설정한다.
  • 표준 손실(BCE/IOU 등 데이터세트에 따라 적합)을 사용하고 AdamW로 학습한다.

실험 결과

연구 질문

  • RQ1경량 어댑터를 보강한 SAM이 카모플라주 객체 탐지, 그림자 탐지, 용종 분할에서 경쟁력 있는 성능을 달성할 수 있는가?
  • RQ2어댑터에 입력으로서 어떤 형태의 태스크 특화 정보(시각적 사전 정보)가 효과적인가?
  • RQ3SAM-Adapter 프롬프트가 SAM 백본을 미세조정하지 않고 데이터세트와 태스크에 걸쳐 일반화되는가?

주요 결과

  • SAM은 단독으로 사용할 때 카모플라주 객체 탐지와 그림자 탐지에서 성능이 저조하다.
  • SAM-Adapter는 COD 데이터세트에서 SAM의 성능을 크게 향상시키며 CAMO/COD10K/CHAMELEON에서 Sα 기준으로 대략 +17.9%의 이득을 달성한다.
  • SAM-Adapter는 COD10K, CAMO, CHAMELEON 데이터세트 및 ISTD(그림자 탐지)에서 강력한 지표와 낮은 MAE로 SOTA 수준의 결과를 달성한다.
  • 의료 영상인 용종 분할에서 SAM-Adapter가 SAM 기반선보다 mDice 및 mIoU를 향상시킨다.
  • 정량적 결과는 SAM-Adapter가 여러 태스크에서 일부 태스크 특화 방식 및 원래의 SAM보다 우수한 성능을 보임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.