Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Video Instance Segmentation with Transformers

Yuqing Wang, Zhaoliang Xu|arXiv (Cornell University)|Nov 30, 2020
Video Analysis and Summarization参考文献 29被引用数 66
ひとこと要約

VisTRは、変換器を用いたエンドツェンドの平行シーケンスデコーディングとしてビデオインスタンスセグメンテーションを扱い、各フレームにわたるインスタンスごとのマスクシーケンスを生成し、単一モデルで高速かつ競争力のある結果を達成します。

ABSTRACT

Video instance segmentation (VIS) is the task that requires simultaneously classifying, segmenting and tracking object instances of interest in video. Recent methods typically develop sophisticated pipelines to tackle this task. Here, we propose a new video instance segmentation framework built upon Transformers, termed VisTR, which views the VIS task as a direct end-to-end parallel sequence decoding/prediction problem. Given a video clip consisting of multiple image frames as input, VisTR outputs the sequence of masks for each instance in the video in order directly. At the core is a new, effective instance sequence matching and segmentation strategy, which supervises and segments instances at the sequence level as a whole. VisTR frames the instance segmentation and tracking in the same perspective of similarity learning, thus considerably simplifying the overall pipeline and is significantly different from existing approaches. Without bells and whistles, VisTR achieves the highest speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.

研究の動機と目的

  • マルチステージのパイプラインを避ける、単純なエンドツェンドの VIS フレームワークを動機づける。
  • ビデオフレーム全体の時間的・空間的関係をモデル化するためにTransformerを活用する。
  • シーケンスレベルの監視に適したインスタンスシーケンスマッチングとセグメンテーション戦略を開発する。
  • YouTube-VIS上で高い推論速度を維持しつつ高い精度を示す。

提案手法

  • CNNバックボーンを用いて複数フレームのビデオクリップを符号化し、クリップレベルの特徴を得る。
  • 3D位置エンコーディングを用いてフレーム間のピクセルレベルの関係を捉えるTransformerエンコーダを使用する。
  • インスタンスクエリを用いたTransformerデコーダで固定数のインスタンス予測をデコードする。
  • ハンガリアンアルゴリズムを用いてフレーム間の予測インスタンスシーケンスとグラウンドトゥルーインスタンスシーケンスを整合させるインスタンスシーケンスマッチングを適用する。
  • 時間を通じてマスク特徴を蓄積し、3D畳み込みでマスクシーケンスを予測するインスタンスシーケンスセグメンテーションを実行する。
  • 分類、ボックスシーケンス、およびマスクシーケンスの損失を組み合わせたハンガリアン損失で訓練する。
Figure 1 : The overall architecture of VisTR. It contains four main components: 1) a CNN backbone that extracts feature representation of multiple images; 2) an encoder-decoder Transformer that models the relations of pixel-level features and decodes the instance-level features; 3) an instance seque
Figure 1 : The overall architecture of VisTR. It contains four main components: 1) a CNN backbone that extracts feature representation of multiple images; 2) an encoder-decoder Transformer that models the relations of pixel-level features and decodes the instance-level features; 3) an instance seque

実験結果

リサーチクエスチョン

  • RQ1Transformerベースのフレームワークは、ビデオクリップ全体に対して時系列的に一貫したインスタンスマスクを直接予測できるか。
  • RQ2インスタンス認識クエリを伴うエンドツーエンドのシーケンス予測は、精度と速度を維持しつつVISを簡素化するか。
  • RQ3インスタンスシーケンスマッチングによるシーケンスレベルの監督は、VISの訓練と追跡にどのような影響を与えるか。
  • RQ4時間情報、位置エンコーディング、そして3DセグメンテーションがVISの性能に与える影響は何か。

主な発見

ModelBackboneFPSAPAP50AP75AR1AR10
DeepSORTResNet-50-26.142.926.127.831.3
FEELVOSResNet-50-26.942.029.729.933.4
OSMNResNet-50-27.545.129.128.633.1
MaskTrack R-CNNResNet-5020.030.351.132.631.035.5
STEm-SegResNet-50-30.650.733.531.637.1
STEm-SegResNet-1012.134.655.837.934.441.6
MaskPropResNet-50-40.0----
MaskPropResNet-101-42.5----
VisTRResNet-5030.0/69.936.259.836.937.242.4
VisTRResNet-10127.7/57.740.164.045.038.344.9
  • VisTRはResNet-101でYouTube-VIS検証データセットにおいて40.1% APを達成し、57.7 FPS(データ読み込みを除くと27.7 FPS)。
  • ResNet-50では36.2 APと30.0 FPS(データ読み込みを含むと69.9)。
  • VisTRはAPにおいてYouTube-VIS valセットのいくつかの単一モデルVIS手法を上回る。
  • より長いビデオシーケンスと明示的な位置エンコーディングが性能を著しく向上させることを示している(APは最大で33.3)。
  • インスタンスレベルのクエリは、フレーム間で埋め込みを共有することによりパラメータ数を削減しつつ、予測レベルの設定にほぼ近づけることができる。
  • 3D畳み込みを用いたインスタンスシーケンスセグメンテーションモジュールの組み込みは、追加のAP向上(約1.1点)をもたらす。
Figure 2 : Visualization of VisTR on the YouTube-VIS [ 30 ] validation dataset. Each row contains images from the same video. For each video, here the same colors depict the mask sequences of the same instances (Best viewed on screen).
Figure 2 : Visualization of VisTR on the YouTube-VIS [ 30 ] validation dataset. Each row contains images from the same video. For each video, here the same colors depict the mask sequences of the same instances (Best viewed on screen).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。