QUICK REVIEW

[논문 리뷰] Video Instance Segmentation using Inter-Frame Communication Transformers

Sukjun Hwang, Miran Heo|arXiv (Cornell University)|2021. 06. 07.

Advanced Image and Video Retrieval Techniques참고 문헌 33인용 수 58

한 줄 요약

논문은 프레이밍 간 커뮤니케이션 트랜스포머(IFC)를 제시하여 비디오 인스턴스 분할의 정확도를 크게 유지하면서 시공간 주의(attention) 비용을 대폭 줄이고, 빠른 클립 단위 처리와 YouTube-VIS 벤치마크에서 강력한 결과를 달성합니다.

ABSTRACT

We propose a novel end-to-end solution for video instance segmentation (VIS) based on transformers. Recently, the per-clip pipeline shows superior performance over per-frame methods leveraging richer information from multiple frames. However, previous per-clip models require heavy computation and memory usage to achieve frame-to-frame communications, limiting practicality. In this work, we propose Inter-frame Communication Transformers (IFC), which significantly reduces the overhead for information-passing between frames by efficiently encoding the context within the input clip. Specifically, we propose to utilize concise memory tokens as a mean of conveying information as well as summarizing each frame scene. The features of each frame are enriched and correlated with other frames through exchange of information between the precisely encoded memory tokens. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (AP 44.6 on YouTube-VIS 2019 val set using the offline inference) while having a considerably fast runtime (89.4 FPS). Our method can also be applied to near-online inference for processing a video in real-time with only a small delay. The code will be made available.

연구 동기 및 목표

가려짐과 동작 흐림을 처리하기 위한 prohibitive한 시공간 주의 비용 없이 효율적인 클립 단위 비디오 인스턴스 분할의 필요성 동기화.
클립 전 프레임 정보를 풍부하게 하기 위한 기억 토큰 기반의 프레임 간 통신 메커니즘 개발.
VIS를 위한 시공간 마스크 유사도(IoU)를 최대화하는 인스턴스 중심의 학습 및 추적 방식 제시.
온라인, 거의 온라인, 오프라인 추론을 지원하는 가벼운 클립 수준 트랜스포머 아키텍처 제공.
YouTube-VIS 벤치마크에서의 강력한 속도-정확도 관리와 다수 인스턴스 확장성 유지 시연.

제안 방법

Encode-Receive(프레임별 처리) 및 Gather-Communicate(메모리 토큰을 통한 프레임 간 통신)의 두 가지 트랜스포머 단계를 갖춘 Inter-frame Communication Transformers(IFC) 제안.
메모리 토큰의 작고 학습 가능한 세트를 프레임당 사용하여 장면 컨텍스트를 요약하고 전체 시공간 자기 주의 없이도 프레임 간 주의를 가능하게 함.
Encode-Receive 단계에서 프레임을 독립적으로 처리한 뒤, Gather-Communicate에서 메모리 토큰을 통해 프레임 간 정보를 집계.
잠재적 인스턴스에 대해 고정 크기의 객체 쿼리를 생성하고 클립 전체 프레임에 걸쳐 적용되는 인스턴스별 마스크를 위한 조건부 합성(weights)을 생성.
마스크 기반 Dice 및 focal 손실을 사용한 매칭-손실로 예측과 실제 마스크를 bipartite 매칭으로 연결하고 시공간 마스크 IoU를 최적화.
중첩 클립 간 인스턴스 마스크를 시공간 소프트 IoU 및 헝가리안 매칭으로 매칭하여 클립 단위 추적 가능.

실험 결과

연구 질문

RQ1메모리 토큰 통신을 갖춘 클립 단위 트랜스포머 모델이 시공간 주의 비용을 줄이면서 VIS 정확도에서 경쟁력 있는 성능을 달성할 수 있는가?
RQ2메모리 토큰과 클립 수준 조건화가 프레임 간 특징 풍부화 및 VIS의 인스턴스 추적에 어떤 영향을 미치는가?
RQ3클립 길이(T)와 메모리 토큰 크기(M)가 VIS의 정확도와 속도에 미치는 영향은 무엇인가?
RQ4모델이 YouTube-VIS 데이터셋에서 온라인, 거의 온라인, 오프라인 추론을 강력한 속도-정확도 트레이드오프와 함께 지원할 수 있는가?

주요 결과

오프라인 추론을 사용할 때 YouTube-VIS 2019 validation에서 최첨단에 준하는 성능(AP 44.6)을 달성합니다.
오프라인 설정에서 ResNet-50 기준 최대 107.1 FPS의 빠른 런타임과 클립 기반 VIS에 대한 강력한 속도-정확도 균형을 보여줍니다.
Deformable convolution이나 Cascade 네트워크와 같은 무거운 모듈을 피하면서 온라인/가까운 온라인/오프라인 모드에서 YouTube-VIS 2019의 경쟁 양상을 능가합니다.
근접 온라인 모드(T=5)에서 46.5 FPS의 속도와 약 41.0의 AP를 달성하여 작은 지연으로 실제 실시간 적용 가능성을 보여줍니다.
YouTube-VIS 2021 val에서 메소드가 경쟁력 있는 AP(35–37 범위) 및 관련 지표를 산출하며 VIS 중심 설정에서 다수의 베이스라인을 능가합니다.
메모리 토큰이 프레임 간 통신에 결정적이며 분해된(프레임별) 메모리 토큰 상호 작용이 통합 토큰 방식보다 성능을 더 우수하게 한다는 점이 확인되었습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.