Skip to main content
QUICK REVIEW

[論文レビュー] PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume

Deqing Sun, Xiaodong Yang|arXiv (Cornell University)|Sep 7, 2017
Advanced Vision and Imaging参考文献 1被引用数 141
ひとこと要約

PWC-Net は、学習可能な特徴ピラミッド、ワーピング、コストボリュームを組み合わせた、コンパクトなエンドツーエンド CNN による光学フローを提示し、小さなモデルとリアルタイム速度で最先端の精度を達成します。

ABSTRACT

We present a compact but effective CNN model for optical flow, called PWC-Net. PWC-Net has been designed according to simple and well-established principles: pyramidal processing, warping, and the use of a cost volume. Cast in a learnable feature pyramid, PWC-Net uses the cur- rent optical flow estimate to warp the CNN features of the second image. It then uses the warped features and features of the first image to construct a cost volume, which is processed by a CNN to estimate the optical flow. PWC-Net is 17 times smaller in size and easier to train than the recent FlowNet2 model. Moreover, it outperforms all published optical flow methods on the MPI Sintel final pass and KITTI 2015 benchmarks, running at about 35 fps on Sintel resolution (1024x436) images. Our models are available on https://github.com/NVlabs/PWC-Net.

研究の動機と目的

  • 密な光学フローのためのリアルタイムで正確なエンドツーエンドCNNを動機付け、設計する。
  • 古典的な光学フローの原理を統合することで、CNNの効率と性能を改善できるか探る。
  • モデルサイズを削減しつつ精度を維持する軽量なアーキテクチャを開発する。

提案手法

  • 固定イメージピラミッドを、複数レベルにわたる学習可能な特徴ピラミッドに置換する。
  • アップサンプリングしたフローを使用してフレーム間の特徴を揃えるワーピング層を組み込む。
  • 各ピラミッドレベルで部分的なコストボリュームを構築し、限定的な探索範囲でマッチングコストを捕捉する。
  • 各ピラミッドレベルで多層の光学フロー推定器を用いてフローを予測し、オプションとしてDenseNet接続を用いる。
  • 拡張畳み込みを用いたコンテキストネットワークを追加して、予測されたフローを精緻化する。
  • マルチスケール損失と頑健なバリアントを用いて訓練し、一般化性能を高める。

実験結果

リサーチクエスチョン

  • RQ1ピラミッド処理、ワーピング、コストボリュームを活用することで、CNNベースの光学フロー模型は、はるかに小さなサイズと高速推論で最先端の精度を達成できるのか。
  • RQ2古典的な光学フローの要素(ワーピング、コストボリューム)をエンドツーエンドで訓練可能なアーキテクチャに組み込むことは、SintelとKITTIにおいてFlowNet2およびSpyNetより精度を向上させるのか。
  • RQ3アーキテクチャの選択(特徴ピラミッドの深さ、DenseNet接続、コンテキストネットワーク、損失関数)が精度と一般化に与える影響はどの程度か。
  • RQ4Domain特化データ(Sintel, KITTI)でファインチューニングした場合の PWC-Net の性能は、ゼロから訓練する場合と比較してどうか。

主な発見

  • PWC-Net は、発表済みの光学フロー手法の中で、MPI Sintel final pass と KITTI 2015 ベンチマークにおいて最先端の精度を達成する。
  • モデルは FlowNet2 の約17倍小さく、Sintel 解像度(1024×436)で約35 fps で動作する。
  • ワープベースの特徴整列、部分的なコストボリューム、およびコンテキストネットワークの組み込みは、フロー推定と境界のシャープネスを改善する。
  • DenseNet 接続とファインチューニングは追加の性能向上をもたらし、コンテキストとより大きな特徴抽出器が精度に寄与する。
  • KITTI では、PWC-Net は公表された二フレーム手法の中で最も低いフローアウトライヤー(Fl-all)を獲得し、前景領域で高い性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。