QUICK REVIEW

[論文レビュー] Object Detection, Tracking, and Motion Segmentation for Object-level Video Segmentation

Benjamin Drayer, Thomas Brox|arXiv (Cornell University)|Aug 10, 2016

Visual Attention and Saliency Detection参考文献 25被引用数 30

ひとこと要約

本論文は、オフザシェルフの物体検出器と動き分離、外見の手がかりを組み合わせることで、時間的に一貫性があり、クラスラベルが付与されたオブジェクトチューブを生成する弱教師付き動画オブジェクト分離手法を提案する。検出器の事前知識と動き／テクスチャの手がかりを活用することで、YouTube Objects データセットで先行SOTAより3%優れた性能を達成し、静的またはカメラの動きがある状況でも、純粋な動きベース手法の限界を克服した、4つのデータセットで堅牢な結果を示した。

ABSTRACT

We present an approach for object segmentation in videos that combines frame-level object detection with concepts from object tracking and motion segmentation. The approach extracts temporally consistent object tubes based on an off-the-shelf detector. Besides the class label for each tube, this provides a location prior that is independent of motion. For the final video segmentation, we combine this information with motion cues. The method overcomes the typical problems of weakly supervised/unsupervised video segmentation, such as scenes with no motion, dominant camera motion, and objects that move as a unit. In contrast to most tracking methods, it provides an accurate, temporally consistent segmentation of each object. We report results on four video segmentation datasets: YouTube Objects, SegTrackv2, egoMotion, and FBMS.

研究の動機と目的

カメラの動きがある動画、静的オブジェクト、一緒に動くオブジェクトがある状況で、純粋なボトムアップ型の動き分離法の限界を解消すること。
ユーザーのインタラクションなしに、事前学習済みの物体検出器のみを弱教師として用いて、正確で時間的に一貫性のある動画分離を実現すること。
検出に基づく位置の事前知識と、動きおよび外見の手がかりを統合して、分離精度を向上させること。
オブジェクトの挿入、隠蔽、および一緒に動くオブジェクト（例：騎手と馬）のような、多様な動画データセットにおいて堅牢な性能を発揮すること。
各分離オブジェクトにクラスラベルを付与することで、意味レベルの動画理解を可能にすること。

提案手法

オフザシェルフの検出器を用いたトラッキング・バイ検出によりオブジェクトチューブを抽出し、動きとは独立した強力な空間的およびクラスの事前知識を提供する。
光学フローを計算し、マークフ・ランダムフィールド（MRF）フレームワーク内で動きに基づく単項および双項のポテンシャルを生成する。
スーパーピクセルベースの分離を、検出器の信頼度と動きの手がかりから導出される単項ポテンシャルを用いてGrabCutで精緻化する。
検出候補をフレーム間で関連付ける相関ステップにより、一貫性のある3次元チューブを構築し、時間的整合性を確保する。
外見、動き、検出に基づく手がかりを統合したMRFの最適化により、最終的な分離結果を取得する。
特定のクラスに対して検出器が利用できない場合、ボトムアップ型の動き分離モードにフォールバックする。

実験結果

リサーチクエスチョン

RQ1オブジェクト検出と動き・外見の手がかりを効果的に統合することで、困難な状況下での動画分離の堅牢性が向上するか？
RQ2主にカメラの動きや静的オブジェクトがある動画において、検出に基づく事前知識が分離性能にどのように寄与するか？
RQ3トラッキング・バイ検出と動き分離を統合したアプローチが、純粋なボトムアップ型または完全に教師ありの手法をどれほど上回るか？
RQ4本手法は、オブジェクトの挿入、隠蔽、および一緒に動くオブジェクト（例：騎手と馬）をどのように処理するか？
RQ5各コンポーネント（検出、動き、外見）が最終的な分離精度に果たす寄与度はどの程度か？

主な発見

YouTube Objects データセットでは、平均交差率（IoU）が73.1%に達し、以前のSOTAより3%優れた性能を示した。
SegTrackv2 データセットでは、73.1%のF-measureを達成し、動きと隠蔽を伴う困難なシーケンスにおいても強力な性能を示した。
egoMotion データセットでは、検出器の事前知識のおかげで、動きのみの手法が失敗する静的オブジェクト（例：駐車中の車）を正常に分離した。
FBMS データセットでは、73.18%のF-measureを達成し、静的オブジェクトのアノテーションが欠落しているにもかかわらず、大多数のベースラインを上回った。23/69のオブジェクトが正しく分離された。
本手法はフレーム数に比例してスケーラブルであり、平均して1フレームあたり約8秒の実行時間であった。主な処理時間は検出（1.53秒）、GrabCut（2.1秒）、光学フロー（1.04秒）が占めていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。