QUICK REVIEW

[論文レビュー] Learning Video Object Segmentation from Static Images

Anna Khoreva, Federico Perazzi|arXiv (Cornell University)|Dec 8, 2016

Video Surveillance and Tracking Methods参考文献 42被引用数 70

ひとこと要約

本論文では、静的画像にのみトレーニングされた畳み込みニューラルネットワークを用いて、ガイド付きインスタンスセグメンテーションとして動画オブジェクトセグメンテーションを扱う、革新的なアプローチを提案する。過去のフレームの予測に基づくオンラインファインチューニングとオフラインリファインメントを組み合わせることで、最小限のアノテーションで高精度なセグメンテーションを実現し、わずか10%のフレームアノテーション（境界ボックスのみを入力としても）で86%の平均IoUに到達する。

ABSTRACT

Inspired by recent advances of deep learning in instance segmentation and object tracking, we introduce video object segmentation problem as a concept of guided instance segmentation. Our model proceeds on a per-frame basis, guided by the output of the previous frame towards the object of interest in the next frame. We demonstrate that highly accurate object segmentation in videos can be enabled by using a convnet trained with static images only. The key ingredient of our approach is a combination of offline and online learning strategies, where the former serves to produce a refined mask from the previous frame estimate and the latter allows to capture the appearance of the specific object instance. Our method can handle different types of input annotations: bounding boxes and segments, as well as incorporate multiple annotated frames, making the system suitable for diverse applications. We obtain competitive results on three different datasets, independently from the type of input annotation.

研究の動機と目的

動画オブジェクトセグメンテーションにおける高いアノテーションコストの課題に対処し、動画レベルのピクセル単位のアノテーションデータの必要性を排除すること。
高価な動画レベルのアノテーションに依存せず、静的画像のアノテーションのみで正確な動画オブジェクトセグメンテーションを実現すること。
長時間の動画シーケンスに適した、グローバル最適化を必要としない、一般的で効率的なフレーム単位のセグメンテーションを実現するシステムの開発。
境界ボックスやスパARSEセグメンテーションマスクを含む多様なアノテーションタイプに対して、強靭性を示すこと。
1つの統一されたモデルとパラメータで、複数の異種のベンチマークで競争力ある性能を達成すること。

提案手法

直前のフレームのマスク予測をガイドとして用いる、事前にトレーニングされたインスタンスセグメンテーションネットワークを用いたフレーム単位のセグメンテーション。
オフライン学習フェーズでは、静的画像のマスクに対して変形および粗化操作を用いて、粗いマスク推定値を改善するネットワークのトレーニング。
オンラインファインチューニングでは、新しい動画の特定のオブジェクトインスタンスに適応させるために、最初の1フレームまたは複数のアノテート済みフレームのみを用いる。
グローバルな時空間最適化を回避するため、リアルタイム推論に適したフォワードのみのアーキテクチャを活用。
入力アノテーションは柔軟に設定可能：境界ボックス、セグメンテーションマスク、複数のアノテート済みフレームをサポート。
ボックスアノテーションの場合、システムはそれらを擬似セグメンテーションに変換し、同じセグメンテーションヘッドを適用することで、ボックスからエンドツーエンドの学習を可能にする。

実験結果

リサーチクエスチョン

RQ1静的画像にのみトレーニングされたモデルが、動画レベルのアノテーションを一切必要とせずに、高精度な動画オブジェクトセグメンテーションを達成できるか？
RQ2直前のフレームの予測結果を時系列的監視として用いたガイド付きインスタンスセグメンテーションの有効性はいかほどか？
RQ3完全なマスクアノテーションと比較して、境界ボックスアノテーションのみで十分なセグメンテーション性能を達成できるか？
RQ4アノテート済みフレームの数とその分布が、異なる動画データセットにおけるセグメンテーション品質に与える影響はどの程度か？
RQ51つの汎用モデルが、同じパラメータで多様な動画ベンチマークに一般化され、一貫した性能を示せるか？

主な発見

DAVISデータセットにおいて、10%のフレームのみをアノテートした場合に86%の平均IoUを達成し、最小限の監視下でも優れた性能を示した。
1本の動画あたり1つのアノテート済みフレームのみを用いても、85%のmIoUに到達し、アノテーションの使用効率が極めて高いことを示した。
境界ボックスアノテーションのみでも、30番目の百分位数で80%のmIoUを達成した。これは弱い監視下でも強い耐性を示していることを示している。
10%のアノテート済みフレームとセグメンテーションマスクを用いた場合、20番目の百分位数のフレームでも81%のmIoUを維持した。これは、大多数のフレームで一貫した性能を発揮していることを示している。
1フレームから2～3フレームに増やすことで、アノテート率が1% → 3% → 4%に上昇した際、性能が急激に向上した。これは追加のアノテーションに対する強い利回りを示している。
最も近いアノテート済みフレームからコピーするベースライン手法は、10%のアノテーション率で64%のmIoUにとどまり、本手法の単純なベースラインに対する顕著な性能向上を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。