Skip to main content
QUICK REVIEW

[論文レビュー] Co-training Transformer with Videos and Images Improves Action Recognition

Bowen Zhang, Jiahui Yu|arXiv (Cornell University)|Dec 14, 2021
Human Pose and Action Recognition被引用数 31
ひとこと要約

CoVeR は複数のビデオと画像データセットを同時に処理する TimeSFormer ベースの単一のトランスフォーマーを訓練し、アクション認識の性能を向上させ、データセットごとのファインチューニングなしで一般化可能な表現を実現します。

ABSTRACT

In learning action recognition, models are typically pre-trained on object recognition with images, such as ImageNet, and later fine-tuned on target action recognition with videos. This approach has achieved good empirical performance especially with recent transformer-based video architectures. While recently many works aim to design more advanced transformer architectures for action recognition, less effort has been made on how to train video transformers. In this work, we explore several training paradigms and present two findings. First, video transformers benefit from joint training on diverse video datasets and label spaces (e.g., Kinetics is appearance-focused while SomethingSomething is motion-focused). Second, by further co-training with images (as single-frame videos), the video transformers learn even better video representations. We term this approach as Co-training Videos and Images for Action Recognition (CoVeR). In particular, when pretrained on ImageNet-21K based on the TimeSFormer architecture, CoVeR improves Kinetics-400 Top-1 Accuracy by 2.4%, Kinetics-600 by 2.3%, and SomethingSomething-v2 by 2.3%. When pretrained on larger-scale image datasets following previous state-of-the-art, CoVeR achieves best results on Kinetics-400 (87.2%), Kinetics-600 (87.9%), Kinetics-700 (79.8%), SomethingSomething-v2 (70.9%), and Moments-in-Time (46.1%), with a simple spatio-temporal video transformer.

研究の動機と目的

  • 一般目的のアクション認識を単一データセットの事前学習とファインチューニングの範囲を超えて改善する動機づけ。
  • トランスフォーマーベースのビデオモデルを多様なデータ分布で訓練する戦略を探る。
  • 画像を単一フレームのビデオとして扱い、コー訓練がビデオ表現を強化することを実証する。
  • マルチデータセットのコー訓練が転移性を高め、複数のベンチマークで最先端の結果をもたらすことを示す。

提案手法

  • アクション認識のための典型的な時空間トランスフォーマーとして TimeSFormer を用いる。
  • TimeSFormer ベースラインとして、画像データの標準的な事前学習を行い、それからビデオデータでファインチューニングを行う。
  • CoVeR を導入:データセット固有の分類器をマルチタスク設定で使用し、複数のビデオデータセットをコー訓練する。
  • CoVeR を拡張して画像データとのコ訓練を実現。画像を単一フレームのビデオとして扱い、画像データとビデオデータセットを跨いだ組み合わせ損失を用いる。
  • データセット間のクロスエントロピー損失の加重和を最小化して、共有の空間および時間表現を学習する。
  • 異なる事前学習データセット(ImageNet-21k、JFT-300M、JFT-3B)と、画像/ビデオ学習のバランスを取るための損失重を変化させて実験する。

実験結果

リサーチクエスチョン

  • RQ1複数のビデオデータセットでのコー訓練は、標準的な事前学習とファインチューニングより一般化を改善するか?
  • RQ2ファインチューニング中に画像データを含めることで、アクション認識のビデオ表現をさらに強化できるか?
  • RQ3CoVeR は多様なアクションベンチマークで異なる大規模画像事前学習データセットでどのように性能を出すか?
  • RQ4画像とビデオタスク間の損失ウェイトの影響は最終性能と転移性にどのように現れるか?
  • RQ5マルチデータセットのコ訓練モデルは未見のアクションデータセットへの転移学習をより良く提供するか?

主な発見

  • CoVeR は ImageNet-21k で事前訓練した場合、K400 でトップ1 精度を 2.4%、K600 で 2.3%、SSv2 で 2.3% 向上させる。
  • CoVeR はより大きな画像事前訓練(JFT-300M および JFT-3B)を用いると、複数のデータセット(K400、K600、K700、SSv2、MiT)で新しい最先端の結果を達成する。
  • 複数のビデオデータセットと画像でコ訓練すると、転移可能性が向上し、下流タスクで追加のファインチューニングを伴わない場合もある。
  • 画像データでの訓練はファインチューニング中に堅牢な空間表現を維持するのに役立ち、マルチデータセットのビデオ訓練は時間表現を豊かにする。
  • アブレーションでは、画像データとより多くのデータセットの組み込みが逐次的な利得を生み、画像とビデオの損失のバランスが全体の性能にとって重要であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。