[논문 리뷰] VITA: Video Instance Segmentation via Object Token Association
VITA는 이미지 탐지기로부터 증류된 객체 중심 토큰으로 비디오 이해를 구성하는 완전 오프라인 VIS 방법을 제시하여 ResNet-50 백본에서 YouTube-VIS 2019/2021 및 OVIS에서 최첨단 결과를 달성한다.
We introduce a novel paradigm for offline Video Instance Segmentation (VIS), based on the hypothesis that explicit object-oriented information can be a strong clue for understanding the context of the entire sequence. To this end, we propose VITA, a simple structure built on top of an off-the-shelf Transformer-based image instance segmentation model. Specifically, we use an image object detector as a means of distilling object-specific contexts into object tokens. VITA accomplishes video-level understanding by associating frame-level object tokens without using spatio-temporal backbone features. By effectively building relationships between objects using the condensed information, VITA achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021, and 19.6 AP on OVIS. Moreover, thanks to its object token-based structure that is disjoint from the backbone features, VITA shows several practical advantages that previous offline VIS methods have not explored - handling long and high-resolution videos with a common GPU, and freezing a frame-level detector trained on image domain. Code is available at https://github.com/sukjunhwang/VITA.
연구 동기 및 목표
- 오프라인 VIS를 객체 중심 객체 토큰을 활용한 컴팩트한 비디오 표현으로 동기화한다.
- 프레임에 독립적인 탐지기를 제안하여 프레임 쿼리에서 객체 컨텍스트를 토큰으로 증류하고 이를 시간적으로 집계한다.
- 밀집 시공-시간 백본 없이도 효율적인 장시퀀스 비디오 이해를 가능하게 하는 객체 인코더/디코더를 개발한다.
- 이미지 탐지기 기반의 기초가 실용적인 효율성과 함께 경쟁력 있거나 우수한 VIS 성능을 낼 수 있음을 보여준다.
제안 방법
- Mask2Former 프레임 수준 탐지기를 기반으로 프레임당 객체 질의(프레임 질의)와 각 픽셀 임베딩을 얻는다.
- 프레임 질의를 객체 토큰으로 변환하고 창(windowed)된 시간적 자기 주의(self-attention)를 적용하여 장거리 객체 의사소통을 가능하게 하는 Object Encoder를 도입한다.
- 모든 프레임/객체 토큰으로부터 정보를 모아 최종 클래스 및 마스크 예측을 위한 소수의 비디오 질의로 축적하는 Object Decoder를 도입한다.
- 비디오 수준 매칭 손실, 프레임 수준 손실, 프레임 간 동일성 정렬을 포함한 결합 손실로 엔드투엔드로 학습한다.
- 격자 스파시오-템포(backbone) 특징 대신 컴팩트한 객체 토큰을 사용하여 매우 긴 비디오를 처리하고 비디오-인/비디오-아웃 추론이 가능하도록 한다.
실험 결과
연구 질문
- RQ1프레임 수준 탐지기로 증류된 객체 중심 토큰을 집계하여 비디오 수준 이해를 달성할 수 있는가?
- RQ2밀집 시공-시간 백본 없이도 긴 고해상도 비디오에서 객체 간의 시간적 상호 작용을 효율적으로 모델링할 수 있는가?
- RQ3객체 토큰 기반 아키텍처가 긴 비디오(예: OVIS)에서 전통적 오프라인 VIS 방법에 비해 강건성 및 확장성을 개선하는가?
주요 결과
- YouTube-VIS 2019에서 최첨단 VIS 성능 달성(AP 49.8(ResNet-50); 51.9(ResNet-101); Swin-L에서는 최대 63.0).
- YouTube-VIS 2021에서 VITA가 AP 45.7(ResNet-101)로 이전 방법보다 5.1 AP를 상회.
- OVIS에서 VITA가 AP 19.6으로 긴 시퀀스에서 강력한 성능을 보임.
- 실용적 이점 시연: 단일 12GB GPU에서 매우 긴 해상도 비디오를 처리할 수 있고 실험에서 프레임 수준 탐지기가 고정되며 확장을 위한 추가 매개변수는 약 6%만 필요하다.
- 객체 토큰 설계가 수렴 속도를 높이고 프레임 간 신원 클러스터링을 개선하는 유사도 손실의 이점을 얻는다.
- Window 크기와 클리핑/토큰 프 pruning이 성능 및 추론 확장성에 영향을 미치며, W=6이 실용적 균형을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.