QUICK REVIEW

[論文レビュー] Flow-Guided Feature Aggregation for Video Object Detection

Xizhou Zhu, Yujie Wang|arXiv (Cornell University)|Mar 29, 2017

Advanced Neural Network Applications参考文献 39被引用数 105

ひとこと要約

Flow-guided feature aggregation (FGFA) は、モーションパスに沿って周辺フレームの特徴をワープさせて集約することで、ビデオ物体検出のための各フレームのCNN特徴を強化し、単一フレーム検出器よりも精度を向上させるよう、エンドツーエンドでトレーニングされる。

ABSTRACT

Extending state-of-the-art object detectors from image to video is challenging. The accuracy of detection suffers from degenerated object appearances in videos, e.g., motion blur, video defocus, rare poses, etc. Existing work attempts to exploit temporal information on box level, but such methods are not trained end-to-end. We present flow-guided feature aggregation, an accurate and end-to-end learning framework for video object detection. It leverages temporal coherence on feature level instead. It improves the per-frame features by aggregation of nearby features along the motion paths, and thus improves the video recognition accuracy. Our method significantly improves upon strong single-frame baselines in ImageNet VID, especially for more challenging fast moving objects. Our framework is principled, and on par with the best engineered systems winning the ImageNet VID challenges 2016, without additional bells-and-whistles. The proposed method, together with Deep Feature Flow, powered the winning entry of ImageNet VID challenges 2017. The code is available at https://github.com/msracver/Flow-Guided-Feature-Aggregation.

研究の動機と目的

検出のポスト処理ではなく、特徴レベルで時系列情報を活用してビデオ物体検出を改善することを動機づける。
近傍フレームを跨ぐ flow-guided aggregation によって、フレームごとの特徴を強化するエンドツーエンドで学習可能なフレームワークを開発する。
動画中の物体外観の悪化（モーションブラー、フォーカス外れ、まれなポーズ）に起因する課題に対処する。
重い手作りの後処理なしで、ImageNet VID で競争力のある性能を示す。

提案手法

各動画フレームに対してフレームごとの特徴抽出器を適用する。
フローネットワークを用いてフレーム間の光学フローを推定し、近接フレームの特徴を参照フレームへワープさせる。
ワープさせた特徴と参照フレームの特徴を小さな埋め込みネットワークで埋め込み、類似度を計算する。
埋め込み空間でのコサイン類似度を用いて空間的位置ごとに適応的な重みを計算し、ワープ特徴の加重集約を行う。
集約特徴を検出ネットワーク（R-FCN ベース）に入力し、参照フレーム上でエンドツーエンドの物体検出を行う。
全てのコンポーネントをエンドツーエンドで訓練し、訓練時には時系列ドロップアウトを適用してフレーム範囲全体を正則化する。

実験結果

リサーチクエスチョン

RQ1特徴レベルで時系列情報を活用して、単一フレーム検出器を超える顕著な精度向上をビデオ物体検出にもたらすことができるか？
RQ2flow-guided feature aggregation は、遅い・中くらい・速い物体運動のすべてに対して頑健な改善を提供するか？
RQ3Flow estimation、feature warping、aggregation のエンドツーエンド訓練が、ボックスレベルのポスト処理と比較して検出性能にどのように影響するか？
RQ4集約範囲、計算コスト、検出精度のトレードオフはどのようになるか？

主な発見

FGFA は ImageNet VID における強力な単一フレームのベースラインを顕著に上回り、mean average precision (mAP) を向上させる。
本手法は高速移動する物体に対して顕著な利得を生み出し、fast-motion グループでより大きな mAP の改善を示す。
適応的な flow-guided 集約は近傍フレームから情報を集約するのを助け、外観が劣化している場合の検出を改善する。
エンドツーエンド訓練は極めて重要で、コンポーネントを固定すると性能が低下する（例: FlowNet を固定）。
FGFA を Seq-NMS のようなボックスレベルの手法と組み合わせるとさらなる向上が得られ、重いエンジニアリングを要さずに競争力のある結果に到達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。