Skip to main content
QUICK REVIEW

[論文レビュー] SlowFast Networks for Video Recognition

Christoph Feichtenhofer, Haoqi Fan|arXiv (Cornell University)|Dec 10, 2018
Human Pose and Action Recognition参考文献 54被引用数 143
ひとこと要約

本論文は、SlowFastを提案する。Slow pathwayを低フレームレートで意味情報を捉える網羅的な空間表現、Fast pathwayを高フレームレートでモーションに焦点を当てる軽量な経路として用い、側方接続を介して結合することで、光学的フローなしでKinetics、Charades、AVAにおいて最先端を達成する。

ABSTRACT

We present SlowFast networks for video recognition. Our model involves (i) a Slow pathway, operating at low frame rate, to capture spatial semantics, and (ii) a Fast pathway, operating at high frame rate, to capture motion at fine temporal resolution. The Fast pathway can be made very lightweight by reducing its channel capacity, yet can learn useful temporal information for video recognition. Our models achieve strong performance for both action classification and detection in video, and large improvements are pin-pointed as contributions by our SlowFast concept. We report state-of-the-art accuracy on major video recognition benchmarks, Kinetics, Charades and AVA. Code has been made available at: https://github.com/facebookresearch/SlowFast

研究の動機と目的

  • ビデオ信号の時間的非対称性を動機づけ、それを空間的意味情報とモーションに分離して考える。
  • 異なる時間的スピードとチャネル容量を持つ2経路アーキテクチャ(SlowとFast)を開発する。
  • 側方接続を介して経路表現を融合し、計算効率を保ちながらビデオ認識を向上させる。
  • ImageNet事前学習なしで主要ベンチマークで最先端の性能を示す。
  • Fast経路と融合機構の寄与を理解するための広範なアブレーションを提供する。

提案手法

  • Slow pathway(低フレームレート、広い空間意味情報)とFast pathway(高フレームレート、軽量、運動に焦点)を備えたSlowFastアーキテクチャを提案する。
  • Slow側で大きな時間的ストライド(tau)を用い、少数のフレームをサンプリングして初期層で空間解像度を維持する。
  • Fast pathwayをα倍の高い時間分解能、βチャネル容量で動作させ、軽量に保つ(FLOPsの約20%程度)。
  • 複数の段階で側方接続を介して2つの経路を融合し、時間的・空間的特徴を整合させる。
  • 明示的な光学フローを避け、RAWビデオデータからエンドツーエンドに訓練する。評価は複数のバックボーン(例:ResNet系)とKinetics、Charades、AVAでのアブレーションで行う。

実験結果

リサーチクエスチョン

  • RQ1異なる時間的スピードを持つ2経路アーキテクチャは、単一経路モデルを超えるビデオ認識を実現できるか。
  • RQ2高速で軽量なFast pathwayが、空間的な詳細よりもモーションに焦点を当てる場合、認識にどのように寄与するか。
  • RQ3SlowとFast経路間の有効な融合戦略(側方接続)は何か、チャネルと時間的構成が性能にどう影響するか。
  • RQ4ImageNetの事前学習や光学フロー入力なしで最先端の成果を達成できるか。
  • RQ5SlowFastモデルはアクション検出タスク(AVA)で、アクションクラシフィケーションのベンチマークと比較してどのように評価されるか。

主な発見

  • SlowFastモデルは、さまざまなバックボーンと入力サンプリングでKinetics-400、Kinetics-600、Charades、AVAで最先端の精度を達成している。
  • Kinetics-400で、SlowFast 16x8、ResNet-101にNon-localブロックを組み合わせると、top-1 79.8%、top-5 93.9%、30ビューあたり234 GFLOPsに達する。
  • Charadesでは、SlowFast 16x8、ResNet-101は42.1 mAPを達成(ベースラインのSlowのみは39.0、NLを加えるとKin400事前学習で42.5、Kin600事前学習で45.2へ改善)。
  • Slow経路のみでも強力だが、SlowFast融合はアブレーションを通じてSlowのみを常に上回り、top-1精度で最大約3.0ポイント程度の改善を示す。
  • 同じバックボーンでゼロImageNet前提訓練(Scratchからの訓練)の場合でも競争力のある結果が得られ、例えばSlowFast 3D-ResNet-50はScratchで73.5% top-1、従来のレシピは69.4%であった。
  • Fast pathwayはチャネル容量が低くても(βを1/32まで小さくしても)有意な改善を寄与する(例:わずかなFLOPs増加でTop-1が+1.6%)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。