Skip to main content
QUICK REVIEW

[論文レビュー] Space-Time Crop & Attend: Improving Cross-Modal Video Representation Learning

Mandela Patrick, Yuki M. Asano|arXiv (Cornell University)|Mar 18, 2021
Multimodal Machine Learning Applications参考文献 132被引用数 3
ひとこと要約

本論文は、特徴空間における空間的クロッピングを適用して効率的なデータ拡張を可能にするとともに、軽量なトランスフォーマーを用いた時系列モデリングを行うことで、自己教師あり動画表現学習の性能を向上させる新規手法、Space-Time Crop & Attend (STiCA) を提案する。STiCA は、Kinetics-400 で事前学習した場合、HMDB-51 で 67.0%、UCF-101 で 93.1% の精度を達成し、最先端の結果を実現した。

ABSTRACT

The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentations such as cropping, which are very important for still images, work as well for videos. In this paper, we improve these formulations in two ways unique to the spatio-temporal aspect of videos. First, for space, we show that spatial augmentations such as cropping do work well for videos too, but that previous implementations, due to the high processing and memory cost, could not do this at a scale sufficient for it to work well. To address this issue, we first introduce Feature Crop, a method to simulate such augmentations much more efficiently directly in feature space. Second, we show that as opposed to naive average pooling, the use of transformer-based attention improves performance significantly, and is well suited for processing feature crops. Combining both of our discoveries into a new method, Space-Time Crop & Attend (STiCA) we achieve state-of-the-art performance across multiple video-representation learning benchmarks. In particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and 93.1% on UCF-101 when pre-training on Kinetics-400.

研究の動機と目的

  • 自己教師あり動画表現学習において、画像の対照的学習で重要視される空間的不変性学習が、計算コストのため、動画では十分に活用されていないという問題に取り組む。
  • 動画モデルにおける単純なグローバル平均プーリングの限界を克服する。これは時系列順序を破棄し、長距離の時系列依存関係のモデリングを困難にする。
  • 特徴空間における空間的拡張と注目ベースの時系列モデリングを組み合わせることで、クロスモodal 動画表現学習を改善し、不変性とシーケンス理解の両方を強化する。
  • 追加のデータ(例:AudioSet)に依存せずに、Kinetics-400 のみで事前学習した状態で、自己教師あり動画表現学習において最先端の性能を達成することを目的とする。

提案手法

  • バックボーンネットワークの前方伝播回数がクロップ数に関係なく2回で済むため、計算コストを削減できる、特徴空間での空間的クロッピングを模倣する手法である Feature Crop を導入する。
  • 複数の特徴クロップを用いた対照的学習を適用することで、空間的不変性を強化し、GPU メモリや学習時間を増加させることなく、強力なデータ拡張を実現する。
  • グローバル平均プーリングの代わりに、浅いトランスフォーマーに基づくプーリング層を採用することで、時系列順序を保持する文脈に依存した表現を学習可能にする。
  • 特徴空間でのクロッピングと注目ベースの時系列プーリングを組み合わせ、音声・視覚間の対照的学習(クロスモーダル)とモーダル内対照的学習を統合し、マルチスパイアスの監視により表現品質を向上させる。
  • 動画と音声の両ストリームに共通のトランクを用いた二重ストリームアーキテクチャを採用し、時系列注目プーリングと対照的損失を適用してクロスモーダル表現を一致させる。
  • ノイズ対比インスタンス識別目的関数を用いてモデルを訓練する。ここでは、ポジティブペアは同じ動画の拡張ビューであり、ネガティブペアは異なる動画からのものである。

実験結果

リサーチクエスチョン

  • RQ1入力空間における高い計算コストを考慮しても、動画表現学習に空間的データ拡張(例:クロッピング)を効果的に適用できるか?
  • RQ2グローバル平均プーリングを注目ベースのアテンション機構に置き換えることで、自己教師あり動画学習における時系列モデリングが向上するか?
  • RQ3特徴空間でのクロッピングと注目ベースの時系列プーリングを組み合わせることで、標準的な対照的学習よりも優れた性能が得られるか?
  • RQ4本手法は、追加データなしに標準的なデータセット(例:Kinetics-400)で事前学習した場合、最先端の手法と比較してどうなるか?
  • RQ5自己教師あり動画モデルは、追加データを一切使用せず、Kinetics-400 のみで事前学習した場合、教師あり手法にどれほど近づけるか?

主な発見

  • STiCA は、Kinetics-400 で事前学習した場合、HMDB-51 で 67.0%、UCF-101 で 93.1% の新しい最先端の精度を達成した。これは、GDT や CVLR といった先行の最先端手法を上回る結果である。
  • GDT ベースライン(類似した対照的学習設定を採用)と比較して、HMDB-51 で 7.0 パcent 点、UCF-101 で 3.8 パcent 点の性能向上を達成した。
  • 特徴空間でのクロッピングを単独で用いることで、クロスモーダルベースライン比で 1.7% の性能向上が得られ、空間的不変性学習の有効性が示された。
  • グローバル平均プーリングをトランスフォーマーに基づくプーリングに置き換えることで、全フレーム長にわたり 4% 以上の性能向上が得られ、特に非常に長いシーケンスでは平均プーリングを使用した場合に顕著な性能低下が見られた。
  • 特徴空間でのクロッピングと自己注意の組み合わせが最良の結果をもたらし、アブレーションスタディでは両要素が相乗的かつ不可欠であることが示された。
  • AudioSet(Kinetics-400 より 10 倍大きなデータセット)で事前学習したモデルでさえも、STiCA に劣る結果を示した。これは、本手法のデータ効率性と強力なインダクティブバイアスの有効性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。