QUICK REVIEW

[논문 리뷰] Segment and Track Anything

Yangming Cheng, Liulei Li|arXiv (Cornell University)|2023. 05. 11.

AI in Service Interactions인용 수 79

한 줄 요약

SAM-Track은 SAM, DeAOT, Grounding-DINO를 결합하여 프레임 간 다중 객체를 상호작용적으로 다루는 멀티모달 및 자동 추적을 지원하는 비디오 분할을 단일화한다.

ABSTRACT

This report presents a framework called Segment And Track Anything (SAMTrack) that allows users to precisely and effectively segment and track any object in a video. Additionally, SAM-Track employs multimodal interaction methods that enable users to select multiple objects in videos for tracking, corresponding to their specific requirements. These interaction methods comprise click, stroke, and text, each possessing unique benefits and capable of being employed in combination. As a result, SAM-Track can be used across an array of fields, ranging from drone technology, autonomous driving, medical imaging, augmented reality, to biological analysis. SAM-Track amalgamates Segment Anything Model (SAM), an interactive key-frame segmentation model, with our proposed AOT-based tracking model (DeAOT), which secured 1st place in four tracks of the VOT 2022 challenge, to facilitate object tracking in video. In addition, SAM-Track incorporates Grounding-DINO, which enables the framework to support text-based interaction. We have demonstrated the remarkable capabilities of SAM-Track on DAVIS-2016 Val (92.0%), DAVIS-2017 Test (79.2%)and its practicability in diverse applications. The project page is available at: https://github.com/z-x-yang/Segment-and-Track-Anything.

연구 동기 및 목표

프레임 간의 다중 상호작용 모드와 객체 추적을 처리하는 비디오 분할을 위한 통합 프레임워크를 제공한다.
인터랙티브 키 프레임 분할을 위해 SAM을 활용하고 빠른 다중 객체 추적을 위해 DeAOT를 활용한다.
자연어 기반의 객체 선택 및 오픈 세트 탐지를 가능하게 하기 위해 Grounding-DINO를 도입한다.
두 가지 추적 모드(인터랙티브와 자동)와 유연한 실세계 활용을 위한 융합 모드를 가능하게 한다.

제안 방법

다중 객체 설정에서 프레임 간 분할 및 ID를 전파하기 위해 SAM과 DeAOT를 결합한다.
자연어 기반의 객체 프롬프트를 제공하고 분할용 바운딩 박스를 얻기 위해 Grounding-DINO를 사용한다.
자동 모드에서 새로운 객체를 초기화하고 탐지하기 위해 Segment Everything 및 Object of Interest Segmentation를 도입한다.
추적 중 실제로 새로운 객체를 감지하고 ID 충돌을 피하기 위한 Comparing Mask Results (CMR) 메커니즘을 정의한다.
인터랙티브 추적 모드와 자동 추적 모드를 결합하는 Fusion Tracking 모드를 제공한다.
DAVIS-2016-Val 및 DAVIS-2017-Test에서 양적 비교를 통해 최신 방법과 비교 평가를 수행한다.

실험 결과

연구 질문

RQ1SAM-Track이 인터랙티브 프롬프트하에서 비디오의 어떤 객체든 고정밀도로 추적하고 분할할 수 있는가?
RQ2DeAOT를 이용해 프레임 간 시간적 일관성을 가진 다중 객체 추적을 어떻게 수행하는가?
RQ3Grounding-DINO가 이 분할-추적 파이프라인에서 효과적인 언어 기반 객체 선택을 가능하게 하는가?
RQ4자동 모드가 비디오에서 나중에 나타나는 새로운 객체를 기존 ID를 해치지 않고 어떻게 탐지하고 통합하는가?
RQ5표준 벤치마크에서 기존 VOS 방법 대비 어떤 비교 우위가 있는가?

주요 결과

SAM-Track은 인터랙티브 클릭을 사용한 경우 DAVIS-2016-Val에서 평균 92.0, J 90.3, F 93.6으로 강력한 성능을 달성한다.
동일 설정으로 DAVIS-2017-Test에서 평균 79.2, J 75.3, F 83.1을 기록한다.
이 방법은 여러 기준선보다 우수하거나 최근 DeAOT 기반 변형과 다중 객체 추적 작업에서 동등하거나 초과하는 성능을 보인다.
두 가지 유연한 추적 모드(인터랙티브 및 자동)와 융합 모드는 스포츠 분석, 의학 영상, 자율주행 등 다양한 도메인에 걸쳐 다목적 배치를 가능하게 한다.
Grounding-DINO의 통합은 자연어 프롬프트를 통해 객체 선택을 안내하고 오픈 세트 탐지 능력을 확장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.