[論文レビュー] Video Instance Segmentation using Inter-Frame Communication Transformers
この論文はビデオインスタンス分割のためのフレーム間通信トランスフォーマー(IFC)を導入し、空間-時間のアテンションを大幅に削減しつつ高い精度を達成し、クリップあたりの処理を高速化し YouTube-VIS ベンチマークで強力な結果を示す。
We propose a novel end-to-end solution for video instance segmentation (VIS) based on transformers. Recently, the per-clip pipeline shows superior performance over per-frame methods leveraging richer information from multiple frames. However, previous per-clip models require heavy computation and memory usage to achieve frame-to-frame communications, limiting practicality. In this work, we propose Inter-frame Communication Transformers (IFC), which significantly reduces the overhead for information-passing between frames by efficiently encoding the context within the input clip. Specifically, we propose to utilize concise memory tokens as a mean of conveying information as well as summarizing each frame scene. The features of each frame are enriched and correlated with other frames through exchange of information between the precisely encoded memory tokens. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (AP 44.6 on YouTube-VIS 2019 val set using the offline inference) while having a considerably fast runtime (89.4 FPS). Our method can also be applied to near-online inference for processing a video in real-time with only a small delay. The code will be made available.
研究の動機と目的
- 効率的なクリップごとのビデオインスタンス分割を動機づけ、空間-時間アテンションコストを膨大なものとすることなく扱う。
- フレーム間の特徴を豊かにするメモリートークンベースのフレーム間通信機構を開発する。
- VISのために空間-時間マスク類似度(IoU)を最大化するインスタンス中心のトレーニングと追跡方式を提供する。
- オンライン、ほぼオンライン、オフライン推論をサポートする軽量なクリップレベルのトランスフォーマーアーキテクチャを提供する。
- YouTube-VIS ベンチマークでスピードと精度の良好なトレードオフを示しつつ、多数のインスタンスに拡張性を維持する。
提案手法
- Inter-frame Communication Transformers(IFC)を、 Encode-Receive(各フレーム処理)と Gather-Communicate(メモリートークンを介したフレーム間通信)の2つのトランスフォーマーフェーズで提案する。
- 各フレームごとに小さな訓練可能なメモリートークンの集合を用いてシーンコンテキストを要約し、全空間-時間自己アテンションを使用せずにフレーム間のアテンションを可能にする。
- Encode-Receive ステージを用いてフレームを独立に処理し、Gather-Communicate でメモリートークンを介してフレーム間の情報を集約する。
- 潜在的なインスタンスのための固定サイズのオブジェクトクエリを生成し、クリップ内のすべてのフレームに適用されるインスタンス識別マスク用の条件付き畳み込み重みを生成する。
- マスクベースの Dice 損失と focal 損失を用いた ground-truth マスクに対する予測を対を組ませる二部マッチング損失で訓練し、空間-時間マスク IoU を最適化する。
- 空間時間 soft IoU と Hungarian マッチングを用いて overlapping クリップ間でインスタンスマスクを一致させることでクリップレベルの追跡を可能にする。
実験結果
リサーチクエスチョン
- RQ1メモリートークン通信を用いたクリップごとトランスフォーマーモデルは、空間-時間アテンションコストを削減しつつVIS精度で競争力を得られるか?
- RQ2メモリートークンとクリップレベル条件付けは、クロスフレーム特徴強化とインスタンス追跡にどのように影響するか?
- RQ3クリップ長さ(T)とメモリートークンサイズ(M)がVISの精度と速度に与える影響は?
- RQ4オンライン、ほぼオンライン、オフライン推論を YouTube-VIS データセットで強力なスピード-精度のトレードオフとともにサポートできるか?
主な発見
- オフライン推論を用いた場合、YouTube-VIS 2019 val で最先端に近い性能を達成(AP 44.6)。
- オフライン設定で ResNet-50 使用時、最大 107.1 FPS の高速な実行時とクリップベース VIS の強力な速度-精度バランスを示す。
- Deformable convolutions や cascaded nets のような重いモジュールを回避しつつ、オンライン/ほぼオンライン/オフラインの領域で競合するVIS手法より優れる。
- 近オンラインモード(T=5)では 46.5 FPS、AP 約 41.0 となり、実用的なリアルタイム適用可能性を示す。
- YouTube-VIS 2021 val では本手法は競争力のある AP(35–37の範囲)と関連指標を示し、VIS中心の設定でいくつかのベースラインを上回る。
- アブレーションは、クロスフレーム通信におけるメモリートークンが重要であり、分解された(各フレームごと)メモリートークン相互作用は統一トークン方式より上回ることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。