QUICK REVIEW

[論文レビュー] InsPro: Propagating Instance Query and Proposal for Online Video Instance Segmentation

Fei He, Haoyang Zhang|arXiv (Cornell University)|Jan 5, 2023

Video Analysis and Summarization被引用数 8

ひとこと要約

InsProは、オンラインのビデオインスタンスセグメンテーションで明示的な追跡ヘッドなしに、フレーム間でインスタンスクエリ-提案ペアを伝搬させるクエリベースのフレームワークを導入し、YouTube-VIS 2019および 2021で最先端の結果を達成します。

ABSTRACT

Video instance segmentation (VIS) aims at segmenting and tracking objects in videos. Prior methods typically generate frame-level or clip-level object instances first and then associate them by either additional tracking heads or complex instance matching algorithms. This explicit instance association approach increases system complexity and fails to fully exploit temporal cues in videos. In this paper, we design a simple, fast and yet effective query-based framework for online VIS. Relying on an instance query and proposal propagation mechanism with several specially developed components, this framework can perform accurate instance association implicitly. Specifically, we generate frame-level object instances based on a set of instance query-proposal pairs propagated from previous frames. This instance query-proposal pair is learned to bind with one specific object across frames through conscientiously developed strategies. When using such a pair to predict an object instance on the current frame, not only the generated instance is automatically associated with its precursors on previous frames, but the model gets a good prior for predicting the same object. In this way, we naturally achieve implicit instance association in parallel with segmentation and elegantly take advantage of temporal clues in videos. To show the effectiveness of our method InsPro, we evaluate it on two popular VIS benchmarks, i.e., YouTube-VIS 2019 and YouTube-VIS 2021. Without bells-and-whistles, our InsPro with ResNet-50 backbone achieves 43.2 AP and 37.6 AP on these two benchmarks respectively, outperforming all other online VIS methods.

研究の動機と目的

Explicitな追跡/アソシエーションの単純で高速な代替としてオンラインVISを動機付ける。
フレーム間で物体インスタンスを暗黙的にリンクするクエリベースの伝搬機構を開発する。
遮蔽、運動ブラー、新しい物体出現に対処するためのクエリ表現を強化する。
フレーム間で1対1のクエリ-物体対応を保証する訓練戦略を導入する。

提案手法

固定された学習可能なインスタンスクエリと提案のセットを用い、それをフレーム間に伝搬して各フレームのインスタンスを予測する。
クエリ内注意機構を導入し、特徴バンクからの長距離時間情報でクエリを補強する。
SegHeadでは、複数段階にわたる動的インスタンス相互作用と条件付き畳み込みベースのマスクヘッドを採用する。
訓練時に時間的一貫性のあるマッチングを適用し、フレーム間で1対1のクエリ-物体対応を強制する。
同じ物体に対する重複提案を減らすためのボックスデデュプリケーション損失を提案する。

実験結果

リサーチクエスチョン

RQ1クエリ-提案伝搬を介した暗黙的なインスタンスアソシエーションは、オンライン設定において明示的な追跡ベースのVIS手法と同等またはそれを上回ることができるか？
RQ2時間伝搬、クエリ内注意、デデュプリケーション損失は、フレームを跨ぐVISの精度と安定性にどのように影響するか？
RQ3InsProにおけるインスタンスクエリ表現の質に対するバンク長さTの影響はどの程度か？
RQ4YouTube-VIS 2019および2021で、外部COCO訓練データの有無によってInsProはどう性能を示すか？
RQ5純粋なクエリ伝搬ベースのVISシステムは、追跡ベースのアプローチと比較して競争力のあるFPSを達成できるか？

主な発見

Method	AP	AP50	AP75	AR1	AR10	FPS
InsPro (YouTube-VIS 2019; COCO)	43.2	65.3	48.0	38.8	49.0	26.3
InsPro (YouTube-VIS 2021; COCO)	37.6	58.7	40.9	32.7	41.4	26.3

InsProはResNet-50バックボーンでYouTube-VIS 2019および2021においてオンラインVISの最先端性能を達成（COCOデータありでAP 43.2、2021でCOCOデータありAP 37.6）
COCOデータなしでも2019年にAP 40.2、2021年にAP 36.1を達成し、多くのオンラインベースラインを上回る
時間伝搬と時間的一貫性マッチングにより、APが24.0（ベースライン）から37.4へ向上し、暗黙的な関連付けが有効であることを示す
ボックスデデュプリケーション損失により重複提案を減らし、約1 APの改善を得る（38.4対37.4）
特徴バンクを用いたクエリ内注意（Tが最大18まで）によりAPを最大で40.2へ改善、速度への影響は最小限
InsPro-liteは正味の精度を抑えつつ45.7 FPSを達成、InsPro（COCOあり）はRTX 2080Tiでフルモデル時26.3 FPSを達成

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。