Skip to main content
QUICK REVIEW

[논문 리뷰] Track Anything: Segment Anything Meets Videos

Jinyu Yang, Mingqi Gao|arXiv (Cornell University)|2023. 04. 24.
Visual Attention and Saliency Detection인용 수 95
한 줄 요약

TAM은 SAM과 XMem을 통합하여 최소한의 사용자 입력으로 비디오에서 고성능의 한 패스 인터랙티브 추적 및 분할을 가능하게 한다. 이미지 분할의 기초를 비디오로 확장하기 위해 시간 메모리와 SAM 기반 개선을 활용한다.

ABSTRACT

Recently, the Segment Anything Model (SAM) gains lots of attention rapidly due to its impressive segmentation performance on images. Regarding its strong ability on image segmentation and high interactivity with different prompts, we found that it performs poorly on consistent segmentation in videos. Therefore, in this report, we propose Track Anything Model (TAM), which achieves high-performance interactive tracking and segmentation in videos. To be detailed, given a video sequence, only with very little human participation, i.e., several clicks, people can track anything they are interested in, and get satisfactory results in one-pass inference. Without additional training, such an interactive design performs impressively on video object tracking and segmentation. All resources are available on {https://github.com/gaomingqi/Track-Anything}. We hope this work can facilitate related research.

연구 동기 및 목표

  • 프레임별 SAM 사용을 넘어 인터랙티브하고 저감시 감독의 비디오 추적 및 분할을 고무한다.
  • 시계열 대응 및 마스크 정제를 활용하는 한 패스 인터랙티브 파이프라인을 개발한다.
  • 복잡한 장면과 긴 비디오를 처리하면서 수작업 주석 작업을 줄인다.

제안 방법

  • 클릭 기반 SAM 마스크로 대상 초기화.
  • 시간-공간 대응을 사용하여 XMem으로 이후 프레임을 예측한다.
  • XMem 출력을 SAM의 프롬프트로 활용해 XMem 마스크를 정제한다.
  • 추가 정확도 향상을 위해 최소한의 인간 보정을 선택적으로 허용한다.

실험 결과

연구 질문

  • RQ1몇 번의 클릭만으로도 SAM 기반 초기화와 메모리 기반 추적(XMem)이 경쟁력 있는 비디오 분할을 달성할 수 있는가?
  • RQ2복잡하고 긴 비디오에서 강건한 VOS 및 VOT를 위해 한 패스 인터랙티브 파이프라인이 충분한가?
  • RQ3시간이 지남에 따라 마스크 품질 유지를 위한 SAM 기반 정제의 효과는 얼마나 큰가?
  • RQ4최소한의 사용자 보정이 전체 성능에 미치는 영향은 어느 정도인가?

주요 결과

  • TAM은 한 패스 클릭 초기화를 통해 DAVIS-2016-val J&F 88.4와 DAVIS-2017-test-dev J&F 73.1의 경쟁력 있는 성능을 달성한다.
  • XMem은 TAM이 SAM 프롬프트로 개선된 마스크를 제공하는 강력한 반지도 VOS 기준선을 제공한다.
  • SAM을 통한 정제(프로브/친화도의 포인트 프롬프트로의 투영)는 XMem만으로는 충분하지 않을 때 더 정밀한 시간적 마스크를 얻는다.
  • 선택적 사용자 보정을 추가하면 어려운 장기 비디오에서 성능이 더 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.