[논문 리뷰] End-to-End Video Instance Segmentation with Transformers
VisTR은 비디오 인스턴스 분할을 트랜스포머를 사용한 엔드투엔드 병렬 시퀀스 디코딩으로 처리하여 프레임 간 각 인스턴스의 마스크 시퀀스를 생성하고 하나의 모델로 빠르고 경쟁력 있는 성능을 달성합니다.
Video instance segmentation (VIS) is the task that requires simultaneously classifying, segmenting and tracking object instances of interest in video. Recent methods typically develop sophisticated pipelines to tackle this task. Here, we propose a new video instance segmentation framework built upon Transformers, termed VisTR, which views the VIS task as a direct end-to-end parallel sequence decoding/prediction problem. Given a video clip consisting of multiple image frames as input, VisTR outputs the sequence of masks for each instance in the video in order directly. At the core is a new, effective instance sequence matching and segmentation strategy, which supervises and segments instances at the sequence level as a whole. VisTR frames the instance segmentation and tracking in the same perspective of similarity learning, thus considerably simplifying the overall pipeline and is significantly different from existing approaches. Without bells and whistles, VisTR achieves the highest speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
연구 동기 및 목표
- 간단한 엔드투엔드 VIS 프레임워크를 다단계 파이프라인을 피하도록 동기를 부여한다.
- 트랜스포머를 활용해 비디오 프레임 간의 시간적 및 공간적 관계를 모델링한다.
- 시퀀스 수준 감독에 적합한 인스턴스 시퀀스 매칭 및 분할 전략을 개발한다.
- YouTube-VIS에서 높은 추론 속도를 유지하면서도 높은 정확도를 보여준다.
제안 방법
- 다중 프레임 비디오 클립을 CNN 백본으로 인코딩해 클립 수준 피처를 얻는다.
- 3D 위치 인코딩을 갖춘 Transformer 인코더를 사용해 픽셀 수준의 프레임 간 관계를 포착한다.
- 인스턴스 질의를 이용한 Transformer 디코더로 고정된 수의 인스턴스 예측을 디코딩한다.
- Hungarian 알고리즘으로 프레임 간 예측 인스턴스 시퀀스와 실측값 시퀀스를 정렬하기 위해 인스턴스 시퀀스 매칭을 적용한다.
- 3D 컨볼루션으로 마스크 시퀀스를 예측하고 시간에 걸쳐 마스크 피처를 누적해 인스턴스 시퀀스 분할을 수행한다.
- 분류, 박스 시퀀스, 마스크 시퀀스 손실을 결합한 Hungarian 손실로 학습한다.

실험 결과
연구 질문
- RQ1Transformer 기반 프레임워크가 전체 비디오 클립에 대해 시간적으로 일관된 인스턴스 마스크를 직접 예측할 수 있는가?
- RQ2인스턴스 인식 질의를 사용한 엔드투엔드 시퀀스 예측이 정확도와 속도를 유지하면서 VIS를 간소화하는가?
- RQ3인스턴스 시퀀스 매칭을 통한 시퀀스 수준 감독이 VIS의 학습 및 추적에 어떤 영향을 미치는가?
- RQ4시간 정보, 위치 인코딩, 3D 분할이 VIS 성능에 어떤 영향을 미치는가?
주요 결과
| 모델 | 백본 | FPS | AP | AP50 | AP75 | AR1 | AR10 |
|---|---|---|---|---|---|---|---|
| DeepSORT | ResNet-50 | - | 26.1 | 42.9 | 26.1 | 27.8 | 31.3 |
| FEELVOS | ResNet-50 | - | 26.9 | 42.0 | 29.7 | 29.9 | 33.4 |
| OSMN | ResNet-50 | - | 27.5 | 45.1 | 29.1 | 28.6 | 33.1 |
| MaskTrack R-CNN | ResNet-50 | 20.0 | 30.3 | 51.1 | 32.6 | 31.0 | 35.5 |
| STEm-Seg | ResNet-50 | - | 30.6 | 50.7 | 33.5 | 31.6 | 37.1 |
| STEm-Seg | ResNet-101 | 2.1 | 34.6 | 55.8 | 37.9 | 34.4 | 41.6 |
| MaskProp | ResNet-50 | - | 40.0 | - | - | - | - |
| MaskProp | ResNet-101 | - | 42.5 | - | - | - | - |
| VisTR | ResNet-50 | 30.0/69.9 | 36.2 | 59.8 | 36.9 | 37.2 | 42.4 |
| VisTR | ResNet-101 | 27.7/57.7 | 40.1 | 64.0 | 45.0 | 38.3 | 44.9 |
- VisTR은 ResNet-101과 함께 YouTube-VIS 검증에서 40.1% AP를 달성하고 57.7 FPS(또는 데이터 로딩 제외 시 27.7 FPS)이다.
- ResNet-50으로는 36.2 AP와 30.0 FPS를 달성하였고(데이터 로딩 포함 시 69.9 FPS).
- VisTR은 YouTube-VIS 검증 세트에서 여러 단일 모델 VIS 방법들보다 AP에서 우수하다.
- 더 긴 비디오 시퀀스와 명시적 위치 인코딩이 성능을 크게 향상시키며(AP 최대 33.3).
- 인스턴스 수준 질의는 예측 수준 구성과 거의 일치하면서 프레임 간 임베딩 공유로 파라미터 수를 줄일 수 있다.
- 3D 컨볼루션을 이용한 인스턴스 시퀀스 분할 모듈을 도입하면 추가 AP 이득이 있다(약 1.1 포인트).
![Figure 2 : Visualization of VisTR on the YouTube-VIS [ 30 ] validation dataset. Each row contains images from the same video. For each video, here the same colors depict the mask sequences of the same instances (Best viewed on screen).](https://ar5iv.labs.arxiv.org/html/2011.14503/assets/x2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.