QUICK REVIEW

[論文レビュー] Video Object Segmentation with Re-identification

Xiaoxiao Li, Yuankai Qi|arXiv (Cornell University)|Aug 1, 2017

Advanced Neural Network Applications参考文献 7被引用数 67

ひとこと要約

本論文は VS-ReID を導入し、マスク伝搬と re-identification の二つのモジュールを組み合わせて video 内のオブジェクトを頑健にセグメントし、DAVIS 2017 テストセットで最上位の性能を達成する。マスクを反復的に伝搬させ、欠落したインスタンスを再識別してドリフトを低減し、大きな変位にも対応する。

ABSTRACT

Conventional video segmentation methods often rely on temporal continuity to propagate masks. Such an assumption suffers from issues like drifting and inability to handle large displacement. To overcome these issues, we formulate an effective mechanism to prevent the target from being lost via adaptive object re-identification. Specifically, our Video Object Segmentation with Re-identification (VS-ReID) model includes a mask propagation module and a ReID module. The former module produces an initial probability map by flow warping while the latter module retrieves missing instances by adaptive matching. With these two modules iteratively applied, our VS-ReID records a global mean (Region Jaccard and Boundary F measure) of 0.699, the best performance in 2017 DAVIS Challenge.

研究の動機と目的

ビデオオブジェクトセグメンテーションにおけるドリフティング（追跡のずれ）と大きなオブジェクト変位の追跡失敗に対処する。
欠落したインスタンスを回復する適応的な再識別メカニズムを導入する。
パッチベースのマスク伝搬ネットワークと再識別モジュールを組み合わせ、動画シークエンス全体での反復的な改良を行う。
DAVIS 2017 チャレンジで最先端の結果を示し、各コンポーネントのアブレーションを分析する。

提案手法

マスク伝搬モジュールは、2ストリームネットワーク（RGBとフロー）を用いて、フローガイドワーピングとパッチレベルの精製を介して隣接フレーム間でピクセルレベルのマスクを伝搬する。
オブジェクト再識別（ReID）モジュールは、検出候補を対象オブジェクトの記憶テンプレートと照合し、ReID特徴量のコサイン類似度を用いて欠落したインスタンスを取得する。
反復的改良は、伝搬と再識別を交互に行い、全シーケンスにわたってマスクを回復・伝搬する。
マスク伝搬ネットワークのパッチベース入力は、小さなオブジェクトや細部の処理を改善し、高解像度特徴マップと拡張畳み込みの助けを得る。
検出（Faster R-CNN）と ReID ネットワークは ImageNet様のデータセットで学習し、再識別タスクに適応させる。
フレームへの反復訪問中に確率マップの劣化を防ぐチェックポイント機構。

実験結果

リサーチクエスチョン

RQ1フローを用いたマスク伝搬と長期的な再識別を組み合わせることで、ビデオセグメンテーションにおける遮蔽や大きなオブジェクト運動に対する頑健性を向上させることができるか？
RQ2短期的な時間伝搬を超えて欠落したインスタンスを回復する上で、再識別はどれほど寄与するか？
RQ3パッチベースのマスク伝搬とマルチスケールテストがセグメンテーション精度に与える影響は？
RQ4複数のインスタンスを回復する際、VS-ReID の反復的改良はシークエンス全体で安定した改善をもたらすか？

主な発見

表 1 のヘッダ	表 2 のヘッダ
Baseline [11]	0.509	0.526	0.517	-
+ full-image to bbox	0.532	0.577	0.555	+0.038
+ flow-stream	0.568	0.600	0.584	+0.007
+ re-id module	0.633	0.670	0.652	+0.068
+ multi-scale testing	0.644	0.678	0.661	+0.009
Global results (DAVIS 2017 test-challenge)	69.9	-	-	-

DAVIS 2017 test-challenge での global mean (Region Jaccard と Boundary F) が 0.699 を達成、2017年に報告された最高の性能。
アブレーションにより、全画像入力、flow-stream、ReID モジュール、マルチスケールテストに対して境界ボックス入力から顕著な改善が見られる。
反復的改良による再識別は大幅な向上をもたらす（例：ReIDモジュールを追加すると global-mean が +0.068）。
二重ストリーム（RGB + flow）伝搬とパッチベース入力は境界精度と境界リコールを向上させる。
提案されたチェックポイント機構は、フレーム間の反復改良中の劣化を緩和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。