[논문 리뷰] A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering
이 논문은 시각 기반 모델 시대의 Segment Anything Model(SAM)을 조사하고, 평가, 강건성 및 통합을 검토하며, 'segment anything' 시나리오에서 SAM에 대한 통합 평가 지표를 제안한다.
The Segment Anything Model (SAM), developed by Meta AI Research, represents a significant breakthrough in computer vision, offering a robust framework for image and video segmentation. This survey provides a comprehensive exploration of the SAM family, including SAM and SAM 2, highlighting their advancements in granularity and contextual understanding. Our study demonstrates SAM's versatility across a wide range of applications while identifying areas where improvements are needed, particularly in scenarios requiring high granularity and in the absence of explicit prompts. By mapping the evolution and capabilities of SAM models, we offer insights into their strengths and limitations and suggest future research directions, including domain-specific adaptations and enhanced memory and propagation mechanisms. We believe that this survey comprehensively covers the breadth of SAM's applications and challenges, setting the stage for ongoing advancements in segmentation technology.
연구 동기 및 목표
- 미세 조정 없이 의학 영상 및 실제 현장을 포함한 다양한 도메인에서 SAM의 제로샷 세그먼테이션 기능을 평가한다.
- 프롬프트와 프롬프트 인코더 설계가 세그먼트 품질과 강건성에 미치는 영향을 요약한다.
- SAM이 다른 기반 모델 및 AI 시스템(예: LLM, 그라운딩 모델, 확산 모델)과 어떻게 통합되는지 검토한다.
- SAM의 한계를 식별하고 통합 평가 지표 및 표준 벤치마킹의 방향을 제시한다.
제안 방법
- 의료 영상, 현실 세계의 세그멘테이션 및 다중 모델 파이프라인에 걸친 SAM 관련 연구의 문헌 고찰.
- SAM 활용을 평가, 다른 모델과의 통합, 3D/시간적 확장으로 분류한다.
- 강건성 연구, 프롬프트 모달리티 및 도메인 적응 기술(예: 어댑터, 미세조정)에 대한 논의.
- SAM 출력물을 활용한 X-anything 패러다임(라벨링, 인페인팅, 트래킹, 3D 작업) 의 합성.
실험 결과
연구 질문
- RQ1다양한 도메인에서 미세조정 없이 다양한 프롬프트 하에 SAM이 객체를 얼마나 잘 구분할 수 있는가?
- RQ2SAM의 세분화 품질과 강건성을 좌우하는 주요 요인(프롬프트, 어댑터, 프레이밍)은 무엇인가?
- RQ3라벨링, 인페인팅, 3D 작업을 처리하기 위해 SAM을 다른 모델(LLM, 그라운딩 모델, 확산 모델 등)과 효과적으로 어떻게 결합할 수 있는가?
- RQ4“segment anything” 시나리오에서 SAM 기반 세그멘테이션을 위한 통합 평가 지표는 무엇으로 구성되는가?
주요 결과
- SAM은 프롬프트 가능 입력으로 강력한 제로샷 세그멘테이션을 달성하지만 경계의 명확성과 도메인에 따라 정확도가 달라진다(예: 일부 의학 장기는 전적으로 감독된 모델에 비해 차이가 큼).
- 박스 프롬프트와 다중 지점 프롬프트는 일반적으로 자동 프롬프트나 포인트 전용 프롬프트보다 세그멘테이션을 향상시키며, 조합은 특정 설정에서 추가 이득을 준다.
- 도메인 적응은 도메인 어댑터를 통한 미세조정(특히 마스크 디코더)과 의료 영상에서 Dice 점수를 크게 향상시킬 수 있으며(종종 80% 이상).
- Grounding-DINO, BLIP, CLIP 및 기타 LLM/LVM 구성요소와의 통합은 라벨링, 캡션생성, 데이터 주석, 3D/4D 작업 등을 원시 세그멘테이션 능력 이상으로 가능하게 한다.
- SAM의 이미지 손상에 대한 강건성은 혼재되어 있다; 일부 연구는 일반적인 손상에서 미미한 감소를 보고하는 반면, 어려운 장면이나 의학 영상에서 더 큰 영향을 발견하는 연구도 있다; 적대적 공격은 화이트박스 설정에서 눈에 띄게 취약성을 보인다.
- "X-anything" 패러다임(Label Anything, Inpaint Anything, Track Anything 등)은 라벨링, 인페인팅, 3D 응용 전반에 걸쳐 SAM의 다양성을 보여주며 광범위한 실세계 사용 사례를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.