QUICK REVIEW

[論文レビュー] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation

Sergi Caelles, Jordi Pont-Tuset|arXiv (Cornell University)|May 2, 2019

Visual Attention and Saliency Detection参考文献 45被引用数 100

ひとこと要約

DAVIS用の無监督マルチオブジェクトビデオオブジェクトセグメンテーショントラックを導入し、整合性のためにDAVIS 2017 train/val を再注釈し、新しいテストセットでRVOSのベースライン結果を提供します。

ABSTRACT

We present the 2019 DAVIS Challenge on Video Object Segmentation, the third edition of the DAVIS Challenge series, a public competition designed for the task of Video Object Segmentation (VOS). In addition to the original semi-supervised track and the interactive track introduced in the previous edition, a new unsupervised multi-object track will be featured this year. In the newly introduced track, participants are asked to provide non-overlapping object proposals on each image, along with an identifier linking them between frames (i.e. video object proposals), without any test-time human supervision (no scribbles or masks provided on the test video). In order to do so, we have re-annotated the train and val sets of DAVIS 2017 in a concise way that facilitates the unsupervised track, and created new test-dev and test-challenge sets for the competition. Definitions, rules, and evaluation metrics for the unsupervised track are described in detail in this paper.

研究の動機と目的

無 human attentionを反映し完全自動的なシナリオをカバーする無監督マルチオブジェクトVOSトラックの導入を动機づける。
無監督マルチオブジェクトVOSの定義と、オブジェクト選択とグルーピングの基準を明確にする。
無監督提案を一貫して評価する評価指標とルールを提供する。
無監督ガイドラインと整合性を確保するためにDAVIS 2017 train/valを再注釈し、新しいtest-dev/challengeセットを公表する。
基準となる結果（例：RVOS）を確立し、無監督マルチオブジェクトVOSの難易度を測定する。

提案手法

意味論に焦点を当てたオブジェクト選択とフレーム間での一貫したマスク追跡を備えた無監督マルチオブジェクトVOSを定義する。
J&Fベースの精度行列を用いた双方向ピボット割り当て問題を提案し、Hungarianアルゴリズムで予測ビデオオブジェクト提案をグラウンドトゥルースオブジェクトに割り当てる。
各シーケンスあたりN個の互いに重ならないビデオオブジェクト提案のプールを使用し、各グラウンドトゥルースオブジェクトを1つの提案にマッチさせ、M(O_gt, O_n)を最大化する。
semi-supervisedの慣行を模倣する評価指標としてJ&Fを採用し、個々のオブジェクトおよびシーケンスごとのスコアを計算する。
RVOSをゼロショットモード（シーケンスあたり20提案）でベースラインとして用い、無監督の性能を定量化する。
無監督の定義と一致させるためにDAVIS 2017 train/valを再注釈し、無監督トラックの新しいtest-dev/test-challengeセットを導入する。

実験結果

リサーチクエスチョン

RQ1無監督マルチオブジェクトVOSを、人間の注意と意味境界を反映するオブジェクト選択とグルーピングとしてどう定義すべきか。
RQ2無監督マルチオブジェクトVOSの性能を最も適切に測る評価フレームワーク（指標とマッチング）は何か。
RQ3再注釈されたDAVIS 2017 Unsupervisedデータセット上で、ゼロショットのビデオオブジェクト提案法（例：RVOS）はどの程度の性能を示すか。
RQ4DAVIS由来のベンチマークにおける無監督と半教師付きVOSのギャップはどの程度か。

主な発見

Set	J&F	J Mean	J Recall	J Decay	F Mean	F Recall	F Decay
val	41.2	36.8	40.2	0.5	45.7	46.4	1.7
test-dev	22.5	17.7	16.2	1.6	27.3	24.8	1.8

新しい無監督マルチオブジェクトトラックがDAVISフレームワーク内で定義・評価されている。
著者らは無監督セマンティクスに合わせるためにDAVIS 2017 train/valを再注釈し、無監督トラック向けにtest-dev/test-challengeを追加した。
ゼロショットモードのRVOSがベースライン結果を提供し、半教師付き設定と比較して無監督マルチオブジェクトVOSの難易度が高くなることを示している。
DAVIS 2017 UnsupervisedではRVOSがvalで41.2 J&Fと36.8 J Mean、test-devで22.5 J&Fと17.7 J Meanを達成し、F1および関連する recalls/decays も報告されている。
評価は最大二部業最適割当（Hungarianアルゴリズム）を用いて予測提案をグラウンドトゥルースオブジェクトに割り当て、L個のグラウンドトゥルースオブジェクトとN個の提案の間で精度行列Mを最大化する。
多-objectの無监督VOSは半教師付きVOSと比べてなお一層困難であることが報告ベースラインの性能から示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。