QUICK REVIEW

[論文レビュー] Mask2Former for Video Instance Segmentation

Bowen Cheng, Anwesa Choudhuri|arXiv (Cornell University)|Dec 20, 2021

Generative Adversarial Networks and Image Synthesis被引用数 64

ひとこと要約

Mask2Formerは時空間マスクドアテンションを用いて3Dセグメンテーションボリュームを予測することで画像セグメンテーションをビデオへ一般化し、アーキテクチャやトレーニングの変更なしにYouTubeVISで最先端の結果を達成します。

ABSTRACT

We find Mask2Former also achieves state-of-the-art performance on video instance segmentation without modifying the architecture, the loss or even the training pipeline. In this report, we show universal image segmentation architectures trivially generalize to video segmentation by directly predicting 3D segmentation volumes. Specifically, Mask2Former sets a new state-of-the-art of 60.4 AP on YouTubeVIS-2019 and 52.6 AP on YouTubeVIS-2021. We believe Mask2Former is also capable of handling video semantic and panoptic segmentation, given its versatility in image segmentation. We hope this will make state-of-the-art video segmentation research more accessible and bring more attention to designing universal image and video segmentation architectures.

研究の動機と目的

普遍的な画像セグメンテーションモデル(Mask2Former)がアーキテクチャの変更なしにビデオインスタンスセグメンテーションを実行できることを示す。
Mask2Formerを3D時空間データで動作させ、時間を跨いで3Dインスタンスマスクを予測する。
YouTubeVIS-2019とYouTubeVIS-2021で性能を評価し、最先端の結果を確立する。

提案手法

ビデオシークエンスを3Dボリューム T x H x W と見なし、このボリューム上でマスクドアテンションを適用する。
時間的位置エンコーディングと3Dマスク予測機構を追加して、時間を跨ぐ各インスタンスマスクを生成する。
前のレイヤーマスクから導出された3Dアテンションマスクを用いた時空間共同マスクドアテンションを使用する。
パラメトリックでなく長さに柔軟な正弦波の時空間位置エンコーディングを採用する。
3Dインスタンスマスク R n,t,h,w = sigmoid(E_mask(:,n)^T · E_pixel(:,t,h,w)).
Train and evaluate using Detectron2 with AdamW, standard VIS training settings, and no COCO augmentation.

実験結果

リサーチクエスチョン

RQ1普遍的な画像セグメンテーションモデルであるMask2Formerは、アーキテクチャやトレーニングパイプラインの変更なしに競争力のあるまたはそれを上回るビデオインスタンスセグメンテーションの結果を達成できるか？
RQ23D時空間マスキングと3Dボリューム予測は、専門のVISモデルと比較してYouTubeVISデータセットでどの程度性能が出るか？
RQ3時系列エンコードと3Dアテンションは、フレーム間の一貫性とインスタンスの追跡にどのような影響を与えるか？
RQ4Mask2Formerは画像セグメンテーションの汎用性を活かして、ビデオセマンティックおよびパンオプティックセグメンテーションへ拡張可能か？

主な発見

method	backbone	data	AP	AP50	AP75
CNN	VisTR [15]	R50	36.2 ± 0.5	59.8	36.9
CNN	VisTR [15]	R101	40.1 ± 0.5	45.0	38.3
IFC	R50	V	41.2 ± 0.5	65.1	44.6
IFC	R101	V	42.6 ± 0.5	66.6	46.3
SeqFormer	R50	V	45.1 ± 0.5	66.9	50.5
SeqFormer	R50	V + C80k	47.4 ± 0.5	69.8	51.8
SeqFormer	R101	V + C80k	49.0 ± 0.5	71.1	55.7
Mask2Former	R50	V	46.4 ± 0.8	68.0	50.0
Mask2Former	R101	V	49.2 ± 0.7	72.8	54.2
Transformer	SeqFormer [16]	Swin-L	59.3 ± 0.5	82.1	66.4
Mask2Former	Swin-T	V	51.5 ± 0.7	75.0	56.5
Swin-S	V	54.3 ± 0.7	79.0	58.8
Swin-B	V	59.5 ± 0.7	84.3	67.2
Swin-L	V	60.4 ± 0.5	84.4	67.0
best of 5 runs	Swin-L	V	60.7 ± 0.5	84.4	66.7

YouTubeVIS-2019で、Mask2Former with Swin-Lは60.4 APを達成し、COCO augmentationなしで従来法を上回った。
YouTubeVIS-2021で、Mask2Former with Swin-Lは60.7 AP (5回の試行の最高値)と84.4 AP50を達成し、追加データなしで最先端を上回った。
Mask2Formerのバリアント（R50, R101, Swin-T/S/B/Lバックボーン）は、同じトレーニング設定下で一貫して同等のVIS手法を凌駕する。
本手法はアーキテクチャ、損失、トレーニングパイプラインを変更せずに、ビデオインスタンスセグメンテーションで最先端の結果を達成する。
推論は全ビデオシークエンスを対象とし、トップ10予測と後処理なしで、可変長のシークエンスに適応する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。