QUICK REVIEW

[論文レビュー] FusionSeg: Learning to combine motion and appearance for fully automatic segmention of generic objects in videos

Suyog Dutt Jain, Bo Xiong|arXiv (Cornell University)|Jan 19, 2017

Visual Attention and Saliency Detection参考文献 44被引用数 151

ひとこと要約

FusionSegは、外観と運動の手がかりを同時に学習する二ストリームCNNを提案し、動画中の汎用オブジェクトのピクセルレベルの前景セグメンテーションを行う。弱い動画データと画像アノテーションで訓練され、DAVIS、YouTube-Objects、SegTrack-v2で最先端の成果を達成している。

ABSTRACT

We propose an end-to-end learning framework for segmenting generic objects in videos. Our method learns to combine appearance and motion information to produce pixel level segmentation masks for all prominent objects in videos. We formulate this task as a structured prediction problem and design a two-stream fully convolutional neural network which fuses together motion and appearance in a unified framework. Since large-scale video datasets with pixel level segmentations are problematic, we show how to bootstrap weakly annotated videos together with existing image recognition datasets for training. Through experiments on three challenging video segmentation benchmarks, our method substantially improves the state-of-the-art for segmenting generic (unseen) objects. Code and pre-trained models are available on the project website.

研究の動機と目的

カテゴリ特化モデルに依存せず、動画内の汎用オブジェクトを完全自動でセグメンテーションできるよう動機づけ、実現する。
外観と運動からの相補的手がかりを活用して、ピクセルレベルのセグメンテーションを改善する。
大規模なピクセルレベルの動画データセットが不足していることを受け、画像アノテーションと弱い動画データからブートストラップする訓練戦略を開発する。
複数の難易度の高い動画セグメンテーションベンチマークで最先端の性能を示す。

提案手法

RGBフレーム（外観ストリーム）とカラーコード化された光学フロー（運動ストリーム）を処理する二ストリーム全畳み込みネットワーク。
外観ストリームは、複数スケールの並列拡張枝を持つディレイテッド-ResNet-101に基づき、ピクセル単位のオブジェクト性マップを生成する。
運動ストリームは同じアーキテクチャを使用するが、光学フロー入力で訓練し、Bounding boxesとフローに基づくフィルタリングから導かれた疑似グラウンドトゥルースを用いてブートストラップする。
融合モデルは、3つの分岐（外観→運動、運動→外観、ペアワイズ積）でストリームを結合し、その後最大化演算を適用して最終セグメンテーションを得る。
訓練データは、画像セグメンテーションデータセット（例：PASCAL VOC 2012）と弱い境界ボックス付き動画アノテーション（ImageNet-Video）からブートストラップして収集し、運動ネットワーク訓練用の高品質な疑似グラウンドトゥルースを生成するためのフィルタリング手順を含む。

実験結果

リサーチクエスチョン

RQ1外観と運動の手がかりをエンドツーエンドで訓練可能なフレームワークに統合し、動画中の一般的な前景オブジェクトを自動的にセグメンテーションできるか？
RQ2大規模なピクセルレベルの動画アノテーションが入手できない場合、深層モデルをどのように訓練できるか？
RQ3外観と運動を共にモデル化することは、多様な動画ベンチマークでいずれかの手がかりのみを用いる場合より優れているか？
RQ4画像セグメンテーションデータと弱い動画アノテーションを活用して、動く物体と静止物体の頑健なピクセルレベルセグメンテーションを学習するための訓練戦略は何か？

主な発見

Flow-閾値	Flow-サリエンシー	FST	KEY	NLC	HVS	FCP	BVS	Ours-A	Ours-M	Ours-Joint
42.95	30.22	57.5	56.9	64.1	59.6	63.1	66.5	64.69	60.18	71.51

外観+運動の結合モデルは、個別ストリームより顕著な改善をもたらす（DAVISで最大11ポイント）。
DAVISでは、結合モデル（Ours-Joint）は71.51%の平均IoUを達成し、いくつかの自動手法と一部の半監視ベースラインを上回る。
YouTube-Objectsでは、結合モデルは68.43%の平均IoUを達成し、多くの最先端自動手法を上回り、半監視アプローチとも競争力を維持している。
SegTrack-v2では、結合モデルは61.40%の平均IoUを達成し、いくつかのベースラインを上回り、データセットを横断して運動と外観の融合の利点を示している。
このアプローチは完全自動の手法を上回り、ヒトの入力を必要とする半監視法のいくつかよりも優れており、推論時にも完全に自動で動作する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。