QUICK REVIEW

[論文レビュー] Weakly Supervised Semantic Segmentation using Web-Crawled Videos

Seunghoon Hong, Donghun Yeo|arXiv (Cornell University)|Jan 2, 2017

Advanced Image and Video Retrieval Techniques参考文献 35被引用数 30

ひとこと要約

本稿では、ウェブクロールド動画を用いて偽セグメンテーションマスクを生成することで、モデルが判別的部分にのみ注目するという制限を克服する弱教師ありセマンティックセグメンテーション手法を提案する。動きと空間時間的特徴を活用することで、画像レベルのラベルと動画由来のアノテーションを二重ブランチDCNNフレームワークで統合し、PASCAL VOCで58.7%のmIoUを達成し、追加のアノテーションに依存する手法を上回る最先端の性能を発揮する。

ABSTRACT

We propose a novel algorithm for weakly supervised semantic segmentation based on image-level class labels only. In weakly supervised setting, it is commonly observed that trained model overly focuses on discriminative parts rather than the entire object area. Our goal is to overcome this limitation with no additional human intervention by retrieving videos relevant to target class labels from web repository, and generating segmentation labels from the retrieved videos to simulate strong supervision for semantic segmentation. During this process, we take advantage of image classification with discriminative localization technique to reject false alarms in retrieved videos and identify relevant spatio-temporal volumes within retrieved videos. Although the entire procedure does not require any additional supervision, the segmentation annotations obtained from videos are sufficiently strong to learn a model for semantic segmentation. The proposed algorithm substantially outperforms existing methods based on the same level of supervision and is even as competitive as the approaches relying on extra annotations.

研究の動機と目的

弱教師ありセマンティックセグメンテーションにおいて、モデルが判別的部分にのみ注目するという一般的な失敗モードを是正すること。
追加の人的アノテーションを排除し、自動的にウェブ動画を取得・利用することで強い監督信号の源とする。
時間的ダイナミクスと動きの特徴を活用することでセグメンテーション精度を向上させるとともに、画像ベースの注目マップによってノイズを低減すること。
追加の監督なしに、画像と動画を統合的に活用するエンドツーエンドのセマンティックセグメンテーションを実現する統一されたディープラーニングフレームワークの構築。

提案手法

クラスラベルを検索キーワードとして用い、ウェブ動画を収集することで、人的介入なしに弱教師付きの動画コレクションを構築する。
画像レベルラベル付き画像を用いてエンコーダーネットワークを訓練し、判別的部分を局在化する注目マップを生成する。
注目マップを用いて不要な動画フレームをフィルタリングし、空間的・時間的領域の注目領域を特定することで、時間的・空間的曖昧性を低減する。
グラフベース最適化を適用し、動き、色、注目マップの特徴を用いて動画内のオブジェクト候補をセグメンテーションし、偽セグメンテーションマスクを生成する。
動画から生成されたマスクを偽監督信号として用い、デコーダーネットワークを訓練するが、エンコーダーは画像学習からの固定状態を維持する。
画像と動画のデータを一つのDCNNフレームワークに統合し、画像データが動画ベースのセグメンテーションを安定化させ、動画データが境界局所化を向上させる。

実験結果

リサーチクエスチョン

RQ1ウェブクロールド動画は、弱教師ありセマンティックセグメンテーションのための高品質な偽セグメンテーションマスクを効果的に生成できるか？
RQ2画像レベルラベルは、自動的に取得された動画におけるノイズと曇りを低減するのに有効に利用できるか？
RQ3動画からの時間的および動きの特徴を組み込むことで、純粋に画像ベースの弱教師あり手法と比較してセグメンテーション精度が向上するか？
RQ4画像レベルラベルとウェブ動画のみで訓練されたモデルは、バウンディングボックスやスクラッチなどの追加アノテーションを用いる手法と同等の性能を達成できるか？

主な発見

提案手法は、PASCAL VOC 2012の検証セットで58.7%の平均交差率（mIoU）を達成し、画像レベルラベルのみを用いる先行手法を顕著に上回った。
SEC や MCNN といった動画を用いる最先端の手法を上回り、より正確なオブジェクト境界を捉え、より広いオブジェクト領域をカバーした。
YouTube-Objectベンチマークでは、カテゴリレベルセグメンテーションで58.6%のmIoU、動画レベルで57.1%のmIoUを達成し、低レベル特徴を用いる手法や、バウンディングボックス監督を用いる手法でさえも上回った。
画像分類から得られる注目マップは、不要なフレームや領域をフィルタリングすることで、動画セグメンテーションにおける誤検出を顕著に低減した。
本フレームワークは、オクルージョン、背景のごみ、複数インスタンス、動きの曖昧性といった困難な動画シナリオに対しても効果的に対処できた。
ウェブクロールド動画に画像レベルの監視を組み合わせることで、強い監視を模倣することができ、追加アノテーションを要する手法と同等の性能を達成できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。