Skip to main content
QUICK REVIEW

[論文レビュー] A Better Baseline for AVA

Rohit Girdhar, João Carreira|arXiv (Cornell University)|Jul 26, 2018
Human Pose and Action Recognition参考文献 14被引用数 44
ひとこと要約

簡易な基準線でのAVAアクションLocalization:Kineticsで事前学習した時空間I3D特徴量を用い Faster R-CNN を適用すると、AVA v2.1 バリデーションと CVPR 2018 テスト提出で最先端の結果を達成します。

ABSTRACT

We introduce a simple baseline for action localization on the AVA dataset. The model builds upon the Faster R-CNN bounding box detection framework, adapted to operate on pure spatiotemporal features - in our case produced exclusively by an I3D model pretrained on Kinetics. This model obtains 21.9% average AP on the validation set of AVA v2.1, up from 14.5% for the best RGB spatiotemporal model used in the original AVA paper (which was pretrained on Kinetics and ImageNet), and up from 11.3 of the publicly available baseline using a ResNet101 image feature extractor, that was pretrained on ImageNet. Our final model obtains 22.8%/21.9% mAP on the val/test sets and outperforms all submissions to the AVA challenge at CVPR 2018.

研究の動機と目的

  • AVA上でのアクションLocalizationをシンプルで強力な基準線で向上させる動機付け。
  • 前学習、データ拡張、バウンディングボックス回帰など、AVAにおける設計選択を調査する。
  • I3Dから最終分類まで時空間構造を維持することの有効性を示す。」,
  • method:
  • method_-ja_Checkpoint_title_removed_for_formatting
  • method: ["Kinetics で事前学習された Mixe d_4f までの I3D特徴量から開始。","RPN(Region Proposal Network)を用いて中心フレームのRoI提案を抽出。","RoIPoolを用いて時間方向に提案を4-Dの region features として複製(時間方向に展開)。","残りのI3Dブロック(Mixed_5c まで)で各アクションクラスごとに独立したシグモイドで region features を分類。","クラス非依存のバウンディングボックス回帰とクラスごとにNMSを適用し、上位300ボックスを保持。","データ拡張と事前学習で訓練し、必要に応じてJFT事前学習済みResNet-101 からのグローバルなシーン特徴を結合する。"]
  • research_questions: ["シンプルな時空間パイプラインが一貫したI3D特徴量を用いてRGBベースの基準線よりAVAで優れるか?","前学習、データ拡張、バウンディングボックス回帰の選択はAVAの性能にどう影響するか?","シーンコンテキストを含めることがAVAのアクションLocalizationにどのように寄与するか?"]
  • key_findings: ["検証mAPがResNetベースの基準線の11.3%から提案手法で21.9%へ改善。","Kineticsでの事前学習はスクラッチ訓練に比べ約2%のブーストをもたらす。","クラス非依存のバウンディングボックス回帰はクラス特有の回帰より約4%の利得を提供。","データ拡張(反転、クロップ)で性能がほぼ5%向上。","JFT事前学習済み特徴を用いた全画像シーンコンテキストの導入で約0.9%の追加ゲイン。","テスト mAP は AVA test set で 21.91%(Ours + JFT)および 21.03%(challenge submission)に達し、CVPR 2018 の全提出を上回る。"]
  • table_headers: ["Method","Validation mAP"]
  • table_rows: [["ResNet-based model [1]","11.3"],["RGB only [4]","14.5"],["RGB + Flow [4]","15.6"],["私たちのモデル","21.9"],["私たちのモデル + JFT","22.8"]]} {
  • } 這

提案手法

  • Start from I3D features up to Mixed_4f pretrained on Kinetics.
  • Extract center-frame RoI proposals with a region proposal network (RPN).
  • Replicate proposals in time to form 4-D region features using RoIPool across time.
  • Classify region features with the remaining I3D blocks (up to Mixed_5c) per action class with independent sigmoids.
  • Apply class-agnostic bounding box regression and NMS per class, keeping top 300 boxes.
  • Train with data augmentation and pretraining, and optionally concatenate global scene features from a JFT-pretrained ResNet-101.

実験結果

リサーチクエスチョン

  • RQ1Can a simplified spatiotemporal pipeline with consistent I3D features outperform RGB-based baselines on AVA?
  • RQ2How do pretraining, data augmentation, and bounding box regression choices impact AVA performance?
  • RQ3What is the contribution of including scene context to action localization on AVA?

主な発見

MethodValidation mAP
ResNet-based model [1]11.3
RGB only [4]14.5
RGB + Flow [4]15.6
私たちのモデル21.9
私たちのモデル + JFT22.8
  • Validation mAP improved from 11.3% (ResNet baseline) to 21.9% with the proposed method.
  • Pretraining with Kinetics yields about 2% boost over scratch training.
  • Class-agnostic bounding box regression provides roughly 4% gain over class-specific regression.
  • Data augmentation (flips, crops) adds nearly 5% performance.
  • Incorporating full-image scene context via JFT-pretrained features yields about 0.9% additional gain.
  • Test mAP reaches 21.91% (Ours + JFT) and 21.03% (challenge submission) on AVA test set, outperforming all CVPR 2018 submissions.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。