[논문 리뷰] Can SAM Count Anything? An Empirical Study on SAM Counting
이 논문은 Segment Anything Model (SAM)을 소수 샷 객체 수 추정에 대해 평가하고, 미세 조정 없이 전문 소수 샷 카운팅 방법에 비해 SAM이 뒤처지며 특히 작고 혼잡한 객체에서 더 그렇다.
Meta AI recently released the Segment Anything model (SAM), which has garnered attention due to its impressive performance in class-agnostic segmenting. In this study, we explore the use of SAM for the challenging task of few-shot object counting, which involves counting objects of an unseen category by providing a few bounding boxes of examples. We compare SAM's performance with other few-shot counting methods and find that it is currently unsatisfactory without further fine-tuning, particularly for small and crowded objects. Code can be found at \url{https://github.com/Vision-Intelligence-and-Robots-Group/count-anything}.
연구 동기 및 목표
- 적은 수의 기준 상자를 주어 보지 않은 객체 범주를 셀 수 있는 SAM의 능력을 평가한다.
- 표준 데이터셋에서 SAM과 기존의 소수 샷 카운팅 방법을 비교한다.
- 작고 밀집된 객체를 셀 때 SAM의 실패 모드를 식별한다.
- SAM의 기존 기능을 활용하여 미세 조정 없이 개수를 추정하는 카운팅 파이프라인을 제안한다.
제안 방법
- SAM의 ViT-H 이미지 인코더를 사용하여 밀집한 이미지 특징을 추출한다.
- 참조 바운딩 박스를 이용해 SAM 프롬프트를 통해 참조 객체 마스크를 생성한다.
- 포인트 그리드 프롬프트로 모든 후보 객체의 마스크를 생성하고 그 특징을 평균낸다.
- 참조 객체 특징과 모든 후보 마스크 특징 간의 코사인 유사도를 계산한다.
- 유사도를 임계값으로 구분해 대상 객체를 카운트하고 추가 탐지기나 분류기 없이 총 개수를 얻는다.
실험 결과
연구 질문
- RQ1SAM은 보지 않은 카테고리에 걸쳐 개별 객체를 효과적으로 분할하여 수를 세는 작업에 활용될 수 있는가?
- RQ2FSC-147 및 COCO val2017에서 SAM의 카운트 성능은 전문 소수 샷 카운팅 방법과 어떻게 비교되는가?
- RQ3소수 샷 카운팅에 SAM을 사용할 때의 주요 실패 모드는 무엇인가(예: 작거나 밀집한 객체)?
주요 결과
- SAM의 카운트 성능은 추가 미세 조정 없이 최첨단 소수 샷 카운팅 방법보다 열등하다.
- COCO val2017에서 SAM은 최상위 방법들과 비교해 평균 MAE가 약 2 단위 차이를 보인다.
- FSC-147에서 SAM의 MAE는 최근 방법들보다 상당히 못하며 MAE 차이가 10을 초과한다.
- SAM은 작은 밀집 객체에서 여러 인스턴스가 하나의 마스크로 예측되는 경우에 어려움을 겪는다.
- SAM의 카운팅 결함은 (i) 같은 카테고리의 객체가 종종 하나의 마스크를 받는 점과 (ii) 마스크에 의미론적 클래스 주석이 없는 점에 기인한다.
- 제한에도 불구하고 일부 희박한 장면에서는 시각화에 나타난 대로 정확히 셀 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.