Skip to main content
QUICK REVIEW

[論文レビュー] LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition

Zuxuan Wu, Caiming Xiong|arXiv (Cornell University)|Dec 3, 2019
Human Pose and Action Recognition被引用数 32
ひとこと要約

LiteEvalは、粗い特徴を軽量CNNで抽出し、必要に応じてより強力なCNNを起動する条件付きゲーティングモジュールによって計算を動的に割り当てる、リource効率的な動画認識のための粗-細かいフレームワークである。FCVIDおよびActivityNetにおいて、それぞれ51.8%および51.3%の計算量削減を達成しながら最先端の精度を実現しており、オンラインおよびオフライン推論を両方サポートしている。

ABSTRACT

This paper presents LiteEval, a simple yet effective coarse-to-fine framework for resource efficient video recognition, suitable for both online and offline scenarios. Exploiting decent yet computationally efficient features derived at a coarse scale with a lightweight CNN model, LiteEval dynamically decides on-the-fly whether to compute more powerful features for incoming video frames at a finer scale to obtain more details. This is achieved by a coarse LSTM and a fine LSTM operating cooperatively, as well as a conditional gating module to learn when to allocate more computation. Extensive experiments are conducted on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate LiteEval requires substantially less computation while offering excellent classification accuracy for both online and offline predictions.

研究の動機と目的

  • 特にモバイルや組み込みシステムなどのリソース制限のある環境において、動画認識における高い計算コストの課題に対処すること。
  • すべての動画フレームに同じ処理を適用する固定計算量モデルの制限を克服すること。
  • 入力の難易度に応じて計算量をスケーリングする適応的推論を用いて、オンラインおよびオフラインの動画分類を可能にすること。
  • 簡単なフレームに対して不要な高複雑度特徴計算を回避することで、エネルギー消費を削減し、効率を向上させること。
  • リアルタイムデプロイメントと推論時の動的意思決定を可能にする、微分可能でエンドツーエンドでトレーニング可能なフレームワークを開発すること。

提案手法

  • ダウンサンプリングされた動画フレームから粗い特徴を効率的に抽出するため、軽量CNNを用いる。
  • 粗い特徴の時間的文脈を保持するため、粗いLSTM(cLSTM)を採用する。
  • 粗い特徴と隠れ状態に基づき、細かい特徴の計算が必要かどうかを決定する条件付きゲーティングモジュールを導入する。
  • ゲーティングモジュールが高精度が必要と判断した場合にのみ、強力なCNNを用いて細かい特徴を抽出する。
  • 細かい特徴が計算された場合には、長期依存関係をモデル化するための細かいLSTM(fLSTM)を用い、cLSTMと同期することで、すべての歴史的文脈を保持する。
  • 細かい特徴が計算されない場合でも、fLSTMをcLSTMと同期させることで、fLSTMが以前の情報をすべて保持し、予測に役立てる。

実験結果

リサーチクエスチョン

  • RQ1粗-細かいフレームワークは、精度を損なわずにFLOPsを削減するための動的計算割り当てを動画認識で実現できるか?
  • RQ2入力の複雑さに基づいて高価な細かい特徴をいつ使うかを決定するための条件付きゲーティング機構は、どの程度効果的か?
  • RQ3細かいLSTMを粗いLSTMと同期させることで、必要な時間的情報を保持し、性能を向上させられるか?
  • RQ4大規模な動画ベンチマークで最先端の精度を維持しつつ、計算量をどの程度削減できるか?
  • RQ5このようなフレームワークは、オンライン(ストリーミング)およびオフライン(バッチ)の両方の動画認識設定で効果的に使用できるか?

主な発見

  • LiteEvalはFCVIDで65.7%のトップ-1精度、ActivityNetで66.1%のトップ-1精度を達成し、強力なベースラインと同等またはそれを上回りながら、それぞれ51.8%および51.3%の計算量削減を実現した。
  • 均一なサンプリングベースラインと比較して、FLOPsを50%以上削減しながら精度の低下を最小限に抑え、強力な効率-精度トレードオフを示した。
  • ゲーティングモジュールのしきい値ハイパーパrameter γは顕著な影響を持つ:低すぎる値(例:0.01)は性能を損なうが、0.1以下の値でも強力な結果が得られ、フレームの冗長性を示している。
  • fLSTMをcLSTMと同期させることは極めて重要である—同期がなければ精度は65.7%に低下し、時間的文脈を保持する役割が確認された。
  • fLSTMに2,048の隠れユニットを使用すると最適な性能が得られ、LSTMの計算量は全体のFLOPsのわずか0.06%にとどまり、CNN特徴抽出が主な計算ボトルネックであることを裏付けた。
  • このフレームワークは完全に微分可能であり、将来のフレームのアクセスや強化学習を必要としないポリシーに基づく手法とは異なり、オンライン推論に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。