Skip to main content
QUICK REVIEW

[論文レビュー] ST-Adapter: Parameter-Efficient Image-to-Video Transfer Learning

Junting Pan, Ziyi Lin|arXiv (Cornell University)|Jun 27, 2022
Domain Adaptation and Few-Shot Learning被引用数 77
ひとこと要約

ST-Adapter は、事前学習済み画像 ViT をビデオ動作認識に適応させる軽量な時空アダプターを導入し、約8% のタスク特有パラメータで、完全微調整と同等またはそれを上回る性能を達成します。

ABSTRACT

Capitalizing on large pre-trained models for various downstream tasks of interest have recently emerged with promising performance. Due to the ever-growing model size, the standard full fine-tuning based task adaptation strategy becomes prohibitively costly in terms of model training and storage. This has led to a new research direction in parameter-efficient transfer learning. However, existing attempts typically focus on downstream tasks from the same modality (e.g., image understanding) of the pre-trained model. This creates a limit because in some specific modalities, (e.g., video understanding) such a strong pre-trained model with sufficient knowledge is less or not available. In this work, we investigate such a novel cross-modality transfer learning setting, namely parameter-efficient image-to-video transfer learning. To solve this problem, we propose a new Spatio-Temporal Adapter (ST-Adapter) for parameter-efficient fine-tuning per video task. With a built-in spatio-temporal reasoning capability in a compact design, ST-Adapter enables a pre-trained image model without temporal knowledge to reason about dynamic video content at a small (~8%) per-task parameter cost, requiring approximately 20 times fewer updated parameters compared to previous work. Extensive experiments on video action recognition tasks show that our ST-Adapter can match or even outperform the strong full fine-tuning strategy and state-of-the-art video models, whilst enjoying the advantage of parameter efficiency. The code and model are available at https://github.com/linziyi96/st-adapter

研究の動機と目的

  • 事前学習済み画像モデルからビデオ理解タスクへのパラメータ効率的な転移学習を調査する。
  • ViT バックボーンを用いた画像からビデオ転送のさまざまなファインチューニング戦略をベンチマークする。
  • パラメータオーバーヘッドを最小限に抑えた時空ボトルネックを持つ Spatio-Temporal Adapter(ST-Adapter)を提案する。
  • ST-Adapter が完全微調整および最先端のビデオモデルと同等またはそれを上回る性能を、動作認識データセットで示す。

提案手法

  • ST-Adapter を、NLP アダプタ設計を時空ボトルネックで拡張することによって導入する。
  • Down-projection、空間・時間推論のための深さ方向の3D畳み込み、残差ブロック内の up-projection を用いて: ST-Adapter(X) = X + f(DWConv3D(XW_down))W_up。
  • DWConv3D を適用する前に、空間的・時間的処理のために X’ を [T, N, d] から [T, h, w, d] にリシェイプする。
  • 統合のために各 Transformer ブロックの MHSA の前に単一の ST-Adapter を配置する。
  • 実装の単純さとデプロイの効率を確保するために、標準演算子で動作させる。
  • パラメータ量は小さな足跡を維持(約2%の追加パラメータ)し、計算オーバーヘッドを低く保つ。

実験結果

リサーチクエスチョン

  • RQ1事前学習済みの画像モデルを完全な微調整なしに効率的にビデオタスクへ適応できるか?
  • RQ2ST-Adapter は完全微調整および他のパラメータ効率型手法と比べて、ビデオ動作認識でどのような性能を示すか?
  • RQ3ST-Adapter は画像領域からビデオ領域へ転移する際、効果的な時系列推論を可能にするか?

主な発見

  • ST-Adapter は CLIP で事前学習した ViT-B/16 を用い、Kinetics-400 で Top-1 82.0%、Something-Something-v2 で 66.3% を達成し、完全微調整と同等以上の性能を、更新パラメータは 7.2M に対して 121.57M のまま維持。
  • ST-Adapter は CLIP および ImageNet-21K で事前学習したバックボーンに対して、他の効率的ファインチューニング手法(例:Prompt Tuning、Partial Fine-tuning)よりも優れた性能を示す。
  • データセット全体で、ST-Adapter は大幅に少ない更新パラメータ数と低い学習コストで高い正確性を提供し、同じバックボーン初期化の多くの最先端ビデオモデルを上回る。
  • アブレーションによりボトルネック幅へのロバスト性、MHSA の前での配置の有効性、ViT ブロックの深いアダプターの恩恵が示される;深さ方向のカーネルでの時間的スパンが性能にとって決定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。