QUICK REVIEW

[논문 리뷰] Type-to-Track: Retrieve Any Object via Prompt-based Tracking

Pha Nguyen, Kha Gia Quach|arXiv (Cornell University)|2023. 05. 22.

Multimodal Machine Learning Applications인용 수 9

한 줄 요약

본 논문은 Type-to-Track, GroOT 데이터셋 및 MENDER 모델을 제안하여 Grounded 다중 객체 추적에서 상태-오브-더-아트(SOTA) 성능을 더 높은 효율성으로 달성한다. 자연어 프롬프트를 사용해 비디오 시퀀스에서 객체를 검색하고 추적하는 단일 단계의 클래스-비특화 트래커를 형식화한다.

ABSTRACT

One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$ imes$ speed faster.

연구 동기 및 목표

자연어 프롬프트로 추적을 자극해 바운딩 박스나 카테고리 기반 방법보다 직관성과 반응성을 개선한다.
Grounded MOT를 지원하기 위해 동영상과 풍부한 텍스트 설명을 포함하는 대형이고 다양한 GroOT 데이터셋을 만든다.
프롬프트로부터 여러 객체를 추적하기 위해 제3차 텐서 모델링을 활용하는 효율적인 트랜스포머 기반 모델(MENDER)을 개발한다.
프롬프트 기반 추적을 벤치마킹하기 위한 새로운 평가 프로토콜과 클래스-비특화 지표를 형식화한다.

제안 방법

이미지 토큰, 트랙렛(traclet), 프롬프트 토큰을 모델링하기 위한 3차원 텐서 기반 자동회귀 프레임워크를 형식화한다(Tt = 1D×D×D ×1 enc(It) ×2 ext(Tt−1) ×3 emb(P)).
영역-프롬프트 관계를 트랙렛-프롬프트 관계와 동일시하여 복잡도를 O(n^3)에서 O(n^2)으로 축소하는 단일 단계 주의 기반 트래커 MENDER를 도입한다.
크로스-어텐션을 사용해 영역-트랙렛-프롬프트 상관관계를 모델링하고 객체 디코더를 통해 바운딩 박스와 신뢰도를 예측한다(Eq. 11).
Ground-truth 매칭을 위한 헝가리 할당(Hungarian assignment)에 따른 정렬 손실 LT|P, 객체성 손실 LI|T, 회귀를 위한 LGIoU로 학습한다.
텍스트 임베딩에 RoBERTa를, 시각 토큰을 생성하기 위한 Deformable DETR 스타일 인코딩을 사용하는 ResNet-101 백본으로 시각 토큰(D=512)을 생성한다.
세 가지 표준 GroOT 설정과 두 가지 프롬프트 기반 프롬프트를 포함한 다섯 가지 GroOT 설정 전반에서 평가하고, 이중 단계 베이스라인(MDETR + TFm) 및 최신 MOT 방법들과 비교한다.

실험 결과

연구 질문

RQ1자연어 프롬프트가 시간에 걸쳐 다중 객체를 효과적으로 지정하고 검색할 수 있는가?
RQ2프롬프트 기반 입력을 갖춘 단일 단계의 클래스-비특화 추적기가 grounded MOT 작업에서 전통적인 이중 단계 파이프라인보다 성능이 우수한가?
RQ3다양한 프롬프트 구성(이름, 동의어, 정의, 캡션)이 추적 정확도와 효율성에 어떤 영향을 미치는가?
RQ4Type-to-Track 시나리오를 위한 강건한 클래스-비특화 지표와 평가 프로토콜은 무엇인가?
RQ5제안된 MENDER 접근법이 다양한 프롬프트 하에서 긴 비디오 시퀀스에 대해 확장 가능한가?

주요 결과

MENDER는 정확도와 효율성에서 이중 단계 베이스라인 설계보다 우수하며, 최대 14.7% 포인트의 정확도 개선과 4배의 속도 향상을 달성한다.
다섯 가지 GroOT 설정에서 MENDER는 SOTA의 클래스-비특화 지표(CA-MOTA, CA-IDF1, CA-HOTA)를 달성하고 경쟁력 있는 mAP50을 보인다.
단순화된 상관 표현은 최대 2배의 속도 향상을 가져오며(예: MOT17 cap 설정에서 7.8 FPS 대 3.4 FPS), 약간의 정확도 개선을 보여준다.
GroOT는 833 객체 클래스와 256K 단어 캡션으로 구성된 2배 더 크고 다양한 MOT 데이터셋으로, 프롬프트를 통한 grounded MOT 평가를 더욱 풍부하게 한다.
MENDER는 단일 단계 설계로 아이덴티티 추적을 유지하고, 탐지 및 추적 특성 추출의 분리 필요성을 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.