QUICK REVIEW

[論文レビュー] SegFlow: Joint Learning for Video Object Segmentation and Optical Flow

Jingchun Cheng, Yi‐Hsuan Tsai|arXiv (Cornell University)|Sep 20, 2017

Advanced Vision and Imaging参考文献 31被引用数 48

ひとこと要約

本稿では、セグメンテーションとフローの両ブランチ間で双方向の特徴伝搬を可能にすることで、同時に動画オブジェクトセグメンテーションとオプティカルフローを予測するエンドツーエンドで統合的に学習されたCNN、SegFlowを提案する。相互監視により両タスクの性能が向上し、DAVISおよびScene Flowベンチマークでそれぞれ2.50および4.06の平均エンドポイント誤差（AEE）を達成し、1フレームあたり0.3秒のリアルタイム推論を維持する。

ABSTRACT

This paper proposes an end-to-end trainable network, SegFlow, for simultaneously predicting pixel-wise object segmentation and optical flow in videos. The proposed SegFlow has two branches where useful information of object segmentation and optical flow is propagated bidirectionally in a unified framework. The segmentation branch is based on a fully convolutional network, which has been proved effective in image segmentation task, and the optical flow branch takes advantage of the FlowNet model. The unified framework is trained iteratively offline to learn a generic notion, and fine-tuned online for specific objects. Extensive experiments on both the video object segmentation and optical flow datasets demonstrate that introducing optical flow improves the performance of segmentation and vice versa, against the state-of-the-art algorithms.

研究の動機と目的

正確な動画オブジェクトセグメンテーションとオプティカルフローを同時に予測する課題に取り組むこと。これらは本質的に相関関係にあり、しばしば別々に最適化されるが、本研究では両者の関連性を活用する。
セグメンテーションとフローの両ブランチ間で双方向の特徴通信を可能にする統一されたディープラーニングフレームワークを構築すること。
大規模な、ペアで整備されたセグメンテーションとオプティカルフローのアノテーションを含むデータセットを必要としない、共同学習モデルの訓練を可能にすること。
実用的な動画解析アプリケーションにおいて、セグメンテーションとフロー予測の両方をリアルタイムで行えるようにすること。
セグメンテーションとフローが相補的であることを検証し、個別タスク最適化を超える性能向上が、共同学習によって達成できることを示すこと。

提案手法

SegFlowは二重ブランチのCNNアーキテクチャを採用する。セグメンテーション用には完全畳み込み型のResNet-101を、オプティカルフロー推定用にはFlowNetSアーキテクチャを用いる。
スコアの特徴伝搬は、複数スケールでアップサンプリングおよびダウンサンプリングされた特徴をブランチ間で連結するスキップ接続により実装され、空間的次元を整合させる。
モデルは反復的でオフライン・オンラインの戦略で訓練される。まず、1つのタスクの真値を用いて事前学習を行い、その後、両タスクの損失関数を用いて共同微調整を行う。この際、セグメンテーションとフローの最適化を交互に実行する。
訓練中、勾配は両ブランチを逆伝搬することで、両タスクの性能向上に寄与する共有表現を学習可能となる。
本手法は、両タスクのペアアノテーションが存在しない状況でも収束可能な段階的最適化プロセスを採用しており、フローのガイドを用いてセグメンテーションブランチを更新し、逆にセグメンテーションのガイドを用いてフローを更新するという交互なプロセスを繰り返す。
最終的なモデルは、標準ベンチマークを用いて評価される。セグメンテーションにはDAVIS、オプティカルフローにはSintel、Flying Chairs、Scene Flowを用い、平均エンドポイント誤差（AEE）およびJIoUなどの定量的指標を用いる。

実験結果

リサーチクエスチョン

RQ1セグメンテーションとオプティカルフローの共同学習は、独立した学習と比較して両タスクの性能向上をもたらすか？
RQ2セグメンテーションとオプティカルフローの両ブランチ間で双方向の特徴通信を実現することで、予測精度がどのように向上するか？
RQ3ペアで整備されたセグメンテーションとオプティカルフローのアノテーションを含む大規模データセットがなくても、共同モデルを訓練することが可能か？
RQ4提案された反復的訓練戦略は、両タスクの性能を高める解に収束するか？
RQ5セグメンテーションのガイドが、特に動いているオブジェクト内において、より完全で滑らかなオプティカルフローを生成するか？

主な発見

SegFlowはScene Flowデータセットで2.50の平均エンドポイント誤差（AEE）を達成し、FlowNetS+ft*（3.78 AEE）を上回り、MonkaaおよびDrivingデータセットでもSceneFlowNetと同等またはそれを上回る性能を示した。
DAVIS 2017の検証セットでは、SegFlowは71.0%のJIoUを達成し、フローなしのベースライン（Ours-flo）および最先端の自己教師あり・半教師あり手法を大きく上回った。
Titan X GPU上では1フレームあたり0.3秒の実行速度を達成しており、リアルタイムアプリケーションに適している。オンライン微調整を含めると1フレームあたり7.9秒となる。
反復的訓練戦略により、訓練中に一度に1つの真値（セグメンテーションまたはフロー）しか利用できない状況でも収束と性能向上が達成された。
可視化結果から、セグメンテーションによるフローガイドランスのおかげで、動いているオブジェクト内でのオプティカルフローが滑らかでより完全であることが示された。
KITTIデータセットでは、データオーグメンテーションを用いないSegFlowが、広範なデータオーグメンテーションを用いたFlowNetS+ftを上回り、優れた一般化性能とロバストネスを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。