Skip to main content
QUICK REVIEW

[論文レビュー] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Zachary Teed, Jia Deng|arXiv (Cornell University)|Mar 26, 2020
Advanced Vision and Imaging参考文献 53被引用数 135
ひとこと要約

RAFT 単一解像度の反復更新ネットワークを用い、全対の特徴相関と再帰的更新ユニットを組み合わせた方法がKITTIとSintelで最先端の光学フローを実現し、一般化と効率性が高い。

ABSTRACT

We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.

研究の動機と目的

  • 粗→細アーキテクチャの制約を克服する高精度な光学フロー模型を提案する。
  • 学習可能な更新で流れを洗練させる単一解像度の再帰的更新機構を開発する。
  • 学習可能な画素ごとの特徴と全ての画素ペアの相関ボリュームを活用して堅牢なマッチングを実現する。
  • 推論と訓練の両方で強いデータセット間の一般化と効率性を示す。

提案手法

  • 共有エンコーダとコンテキストネットワークを用いて、両フレームから画素ごとの特徴を抽出する。
  • 画素特徴の内積を介してすべての画素ペアに対する完全な4D相関ボリュームを構築し、それをプーリングして多段階の相関ピラミッドを形成する。
  • 相関ピラミッドと既存フローを参照する畳み込みGRUベースの更新演算子を用いて高解像度のフローフィールドを反復的に更新する。
  • 学習された近傍画素の凸結合を用いて1/8解像度のフローを全解像度へアップサンプルする。
  • 指数的に増加する重みを持つ中間フロー推定の系列に対して教師あり損失で訓練する。

実験結果

リサーチクエスチョン

  • RQ1全対の相関を用いた多数の結合重み付き再帰更新を通じて、単一の高解像度フローフィールドを効果的に精製できるか?
  • RQ2多スケールの相関ボリューム上でGRUベースの更新演算子を学習することは、複数段階の coarse-to-fine パイプラインと比較して精度を改善しますか?
  • RQ3単一解像度の RAFT モデルは、データセット間(Sintel, KITTI)でどれくらい一般化し、高解像度のビデオへどの程度スケールしますか?
  • RQ4設計上の選択(コンテキスト、相関プーリング、ルックアップ半径、アップサンプリング)が精度と効率に与える影響はどれほどですか?

主な発見

  • KITTI で F1-all = 5.10% の最先端を達成し、前の最高値 (6.10%) から16%改善。
  • Sintel の最終パスでは end-point error (EPE) = 2.855 ピクセルを取得し、前の最高値 (4.098 px) から30%削減。
  • データセットを跨ぐ強い一般化を示す。合成データで訓練後、Chairs/Things の事前学習を経て KITTI EPE = 5.04(従来の深層ネットより40%優れている)。
  • 高い効率性を維持:1080Ti で 1088x436 の映像を 10 FPS で処理し、パラメータ数が小さい 1/5 サイズの派生を 20 FPS で動作させつつ、Sintel で以前の手法を上回る。
  • 単一の高解像度フローフィールドを多くの反復(100+ 可能)にわたって保持・更新し、重みを結合した更新で、他の反復的改良で観察される発散を回避。
  • アブレーションにより、マルチスケール相関プーリング、相関ルックアップ、学習アップサンプリングの利点が示される。ワーピングベースの改良は KITTI で相関ベースのマッチングを下回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。