QUICK REVIEW

[論文レビュー] VITA: Video Instance Segmentation via Object Token Association

Miran Heo, Sukjun Hwang|arXiv (Cornell University)|Jun 9, 2022

Visual Attention and Saliency Detection被引用数 40

ひとこと要約

VITAは、画像検出器によって蒸留されたオブジェクト中心のトークンから動画理解を構築する完全オフラインのVIS手法を提示し、ResNet-50バックボーンでYouTube-VIS 2019/2021およびOVISで最先端の結果を達成します。

ABSTRACT

We introduce a novel paradigm for offline Video Instance Segmentation (VIS), based on the hypothesis that explicit object-oriented information can be a strong clue for understanding the context of the entire sequence. To this end, we propose VITA, a simple structure built on top of an off-the-shelf Transformer-based image instance segmentation model. Specifically, we use an image object detector as a means of distilling object-specific contexts into object tokens. VITA accomplishes video-level understanding by associating frame-level object tokens without using spatio-temporal backbone features. By effectively building relationships between objects using the condensed information, VITA achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021, and 19.6 AP on OVIS. Moreover, thanks to its object token-based structure that is disjoint from the backbone features, VITA shows several practical advantages that previous offline VIS methods have not explored - handling long and high-resolution videos with a common GPU, and freezing a frame-level detector trained on image domain. Code is available at https://github.com/sukjunhwang/VITA.

研究の動機と目的

オブジェクト中心のオブジェクトトークンをコンパクトな動画表現として活用することで、オフラインのVISを動機づける。
フレームに依存しない検出器を提案し、オブジェクトの文脈をトークンへ蒸留し、それらを時間的に集約する。
密な時空的バックボーンを用意せずに、長いシーケンスの動画理解を可能にするObject Encoder/Decoderを開発する。
画像検出器ベースの基盤が、実用的な効率性とともに競争力のあるまたは優れたVIS性能を生み出せることを示す。

提案手法

Mask2Former のフレームレベル検出器を基盤として、フレームごとのオブジェクトクエリ（frame queries）とピクセル埋め込みを取得する。
frame queries をオブジェクトトークンに変換し、長距離のオブジェクト通信を可能にする窓付き時系列自己注意を適用するObject Encoderを導入する。
すべてのフレーム/オブジェクトトークンから情報を集約して、最終のクラスとマスク予測のための小さなビデオクエリ集合を作るObject Decoderを導入する。
ビデオレベルのマッチング損失、フレームレベル損失、フレーム間の同一性を揃える類似性損失を含む結合損失でエンドツーエンド訓練する。
密な時空的バックボーン特徴の代わりにコンパクトなオブジェクトトークンを使用して長い動画を処理し、ビデオイン/ビデオアウト推論を可能にする。）

実験結果

リサーチクエスチョン

RQ1フレームレベル検出器から蒸留されたオブジェクト中心のトークンを集約することで、ビデオレベルの理解を達成できるか。
RQ2密な時空的バックボーンを用いずに、長尺で高解像度の動画における物体間の時系列相互作用をいかに効率的にモデル化できるか。
RQ3従来のオフラインVIS手法と比べて、長い動画（例：OVIS）で頑健性と拡張性を改善するか。

主な発見

Method	Backbone	AP	AP50	AP75	AR1	AR10
VITA (Ours)	ResNet-50	49.8	72.6	54.5	49.4	61.0
VITA (Ours)	ResNet-101	51.9	75.4	57.0	49.6	59.1
VITA (Ours)	Swin-L	63.0	86.9	67.9	56.3	68.1

YouTube-VIS 2019で最先端のVIS性能を達成（AP 49.8 with ResNet-50; 51.9 with ResNet-101; up to 63.0 with Swin-L）。
YouTube-VIS 2021ではVITAはAP 45.7（ResNet-101）に到達し、従来法を5.1 AP上回る。
OVISではVITAがAP 19.6を達成し、長く難しい系列において強い性能を示す。
実用的な利点を実証：12GBのGPU1枚で非常に長い/高解像度の動画を処理でき、実験ではフレームレベル検出器を凍結し、拡張には約6%の追加パラメータしか必要としない。
オブジェクトトークン設計は収束を速くし、フレーム間の同一性クラスター化を改善する類似性損失の恩恵を受ける。
アブレーションにより窓サイズとクリッピング/トークンプルーニングが性能と推論のスケーラビリティに影響を与えることを示し、W=6が実用的なバランスを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。