QUICK REVIEW

[論文レビュー] AIM: Adapting Image Models for Efficient Video Action Recognition

Taojiannan Yang, Yi Zhu|arXiv (Cornell University)|Feb 6, 2023

Human Pose and Action Recognition被引用数 62

ひとこと要約

AIM は事前学習済みの画像トランスフォーマーを凍結し、軽量なアダプターを追加することで、はるかに少ない可動パラメータで時空間的な動画理解を実現し、複数のベンチマークで従来の最先端と同等以上を達成する。

ABSTRACT

Recent vision transformer based video models mostly follow the ``image pre-training then finetuning" paradigm and have achieved great success on multiple video benchmarks. However, full finetuning such a video model could be computationally expensive and unnecessary, given the pre-trained image transformer models have demonstrated exceptional transferability. In this work, we propose a novel method to Adapt pre-trained Image Models (AIM) for efficient video understanding. By freezing the pre-trained image model and adding a few lightweight Adapters, we introduce spatial adaptation, temporal adaptation and joint adaptation to gradually equip an image model with spatiotemporal reasoning capability. We show that our proposed AIM can achieve competitive or even better performance than prior arts with substantially fewer tunable parameters on four video action recognition benchmarks. Thanks to its simplicity, our method is also generally applicable to different image pre-trained models, which has the potential to leverage more powerful image foundation models in the future. The project webpage is \url{https://adapt-image-models.github.io/}.

研究の動機と目的

動画モデルのトレーニングコストを、事前学習済み画像モデルを活用することで削減する動機。
動画における時空間推論のためのパラメータ効率的な適応フレームワークを提案する。
画像バックボーンを凍結し、軽量なアダプターを用いた時空間推論が動画ベンチマークで従来の最先端に到達またはそれを上回ることを示す。
複数の画像事前学習モデルとの互換性を示し、効率の向上を定量化する。

提案手法

事前学習済みの画像トランスフォーマーのバックボーンを凍結する。
自己注意層の後に空間アダプターを挿入して空間適応を可能にする。
画像モデルの自己注意を再利用して時系列モデリング（T-MSA）を行い、時間的適応のための時間アダプターを追加する。
MLPと並列にジョイントアダプターを追加して、最終融合でのスケーリングファクターを用いた共時空間的適応を行う。
バックボーンを凍結した状態で、新規追加のアダプターのみを訓練する。

実験結果

リサーチクエスチョン

RQ1凍結された画像トランスフォーマーのバックボーンに軽量アダプターを追加するだけで、動画アクション認識の性能を競争力のある水準に達成できるか。
RQ2空間、時間、およびジョイントアダプターを順次追加することで、性能がどれだけ向上するか。
RQ3AIM アプローチは異なる画像事前学習モデルとバックボーンと互換性を持ち、データと計算効率を提供するか。

主な発見

AIM は、完全にファインチューニングした動画モデルと比較して、はるかに少ない学習可能パラメータ数で競争力のある、あるいはそれを上回る性能を達成する（例：ViT-L/14 with CLIP pretraining の学習可能パラメータが38MでK400で87.5%達成）。
空間適応だけでも、学習可能パラメータが大幅に少なく（3.7M 対 86M）、完全にファインチューニングした空間のみベースラインと同等の結果を達成。
空間適応を時間適応へ拡張することで性能が大幅に改善され、Something-Something-v2 で凍結された空間バックボーンを用いて top-1 が 61.2% に到達。
ジョイント適応は、完全なファインチューニング済みの時空間モデルとのギャップをさらに縮め、トップ1 が 62.0%（SSv2）で高精度を実現、学習可能パラメータは 14.3M のみ。
AIM は CLIP 事前学習バックボーンを用いると TimeSformer を上回ることが多く、K400、K700、SSv2、Diving-48 の複数データセットで最先端モデルのいくつかと同等以上の性能を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。