[논문 리뷰] Segment Anything Meets Point Tracking
SAM-PT는 Segment Anything Model(SAM)과 희소 포인트 프롬프트를 활용한 포인트 추적을 결합하여 비디오 데이터 없이도 제로샷 인터랙티브 비디오 세그먼테이션을 가능하게 하며, 다수의 VOS/VIS 벤치마크에서 강력한 결과를 얻습니다.
The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, enabled by efficient point-centric annotation and prompt-based models. While click and brush interactions are both well explored in interactive image segmentation, the existing methods on videos focus on mask annotation and propagation. This paper presents SAM-PT, a novel method for point-centric interactive video segmentation, empowered by SAM and long-term point tracking. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. Our experiments on popular video object segmentation and multi-object segmentation tracking benchmarks, including DAVIS, YouTube-VOS, and BDD100K, suggest that a point-based segmentation tracker yields better zero-shot performance and efficient interactions. We release our code that integrates different point trackers and video segmentation benchmarks at https://github.com/SysCV/sam-pt.
연구 동기 및 목표
- 기본 이미지 세그먼테이션 모델(SAM)과 희소 포인트 프롬프트를 활용하여 제로샷 인터랙티브 비디오 세그먼테이션의 동기를 부여한다.
- 쿼리 포인트를 비디오 프레임을 통해 추적하여 세그먼테이션을 안내하는 포인트 중심 전파 프레임워크를 개발한다.
- 긴 비디오 시퀀스에서 정확도를 유지하기 위해 마스크 정제 및 간헐적 재초기화를 가능하게 한다.
- 다양한 벤치마크에서 준지도 학습, 오픈월드, 완전 인터랙티브 VOS 및 VIS 설정을 통해 SAM-PT를 평가한다.
- 비디오 훈련 데이터 없이도 실용적인 인터랙티브 주석의 이점과 제로샷 일반화를 강조한다.
제안 방법
- SAM을 장기 포인트 트래커(PIPS, CoTracker 등)와 확장하여 양성 및 음성 쿼리 포인트를 프레임 간에 전파한다.
- 초기 양성/음성 포인트를 첫 프레임에서 K-중심화(K-Medoids), Shi-Tomasi, 무작위 또는 혼합 샘플링 등의 방법으로 샘플링한다; 객체당 여덟 개의 양성 포인트를 AB에서 권장한다.
- 프레임당 두 번의 패스로 SAM에 프롬프트를 제공한다: 먼저 양성 포인트만으로 객체를 로컬라이즈하고, 그다음 양성 + 음성 포인트와 이전 마스크를 사용해 정제한다.
- 추세(수평선 h = 8 프레임)마다 쿼리 포인트를 재초기화하여 최근 예측 마스크에서 새 포인트를 샘플링하고 추적 오류 및 차폐에서 회복한다.
실험 결과
연구 질문
- RQ1희소 포인트 전파와 SAM을 결합해 비디오 세그먼트 학습 데이터 없이도 경쟁력 있는 제로샷 비디오 세그먼테이션을 달성할 수 있는가?
- RQ2다양한 포인트 샘플링 전략과 트래커가 표준 벤치마크에서 제로샷 VOS 성능에 어떠한 영향을 미치는가?
- RQ3양성 및 음성 포인트를 활용한 두 번의 패스 SAM 프롬프트 체계가 프레임의 마스크 품질을 향상시키는가?
- RQ4긴 시퀀스 및 차폐와 같은 도전적인 시나리오에서 포인트 재초기화의 영향은 무엇인가?
주요 결과
- SAM-PT가 DAVIS 2017(J&F = 79.4) 및 DAVIS 2016(84.3)에서 최첨단 제로샷 VOS 성능을 달성했다.
- YouTube-VOS 2018에서 SAM-PT는 제로샷 점수 중에서 최고의 점수를 달성했으며 J&F = 76.2이다.
- SAM-PT는 여러 제로샷 기준선보다 우수하고 일부 완전 지도 학습 VIS 방법보다도 우수한 성능을 보여 UVO에서의 성능도 향상시킨다.
- 8개의 양성 포인트를 사용하면 성능이 크게 향상되고(하나 대비), 음성 포인트 추가 및 반복적 정제가 결과를 더 개선한다.
- 8 프레임마다 포인트를 재초기화하고 업데이트된 마스크에서 샘플링하는 것은 트래커 오류 및 차폐로부터 회복하는 데 도움을 주어 데이터 세트 전반에서 강건성을 향상시킨다.
- SAM-PT는 다 데이터세트 간 일반화가 강하며 zero-shot 또는 인터랙티브 설정에서 DAVIS, YouTube-VOS, MOSE 및 BDD100K에서 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.