[論文レビュー] ActionCLIP: A New Paradigm for Video Action Recognition
ActionCLIPは動画アクション認識を動画–テキスト照合として再構成し、プリトレイン、プロンプト、ファインチューニングのパラダムを導入し、Kinetics-400で最先端の結果を、強力なゼロショット/少数ショット転移とともに達成する。
The canonical approach to video action recognition dictates a neural model to do a classic and standard 1-of-N majority vote task. They are trained to predict a fixed set of predefined categories, limiting their transferable ability on new datasets with unseen concepts. In this paper, we provide a new perspective on action recognition by attaching importance to the semantic information of label texts rather than simply mapping them into numbers. Specifically, we model this task as a video-text matching problem within a multimodal learning framework, which strengthens the video representation with more semantic language supervision and enables our model to do zero-shot action recognition without any further labeled data or parameters requirements. Moreover, to handle the deficiency of label texts and make use of tremendous web data, we propose a new paradigm based on this multimodal learning framework for action recognition, which we dub "pre-train, prompt and fine-tune". This paradigm first learns powerful representations from pre-training on a large amount of web image-text or video-text data. Then it makes the action recognition task to act more like pre-training problems via prompt engineering. Finally, it end-to-end fine-tunes on target datasets to obtain strong performance. We give an instantiation of the new paradigm, ActionCLIP, which not only has superior and flexible zero-shot/few-shot transfer ability but also reaches a top performance on general action recognition task, achieving 83.8% top-1 accuracy on Kinetics-400 with a ViT-B/16 as the backbone. Code is available at https://github.com/sallymmx/ActionCLIP.git
研究の動機と目的
- 意味テキストを活用するため、アクション認識を動画–テキスト照合問題として再定義する。
- 大規模なWebデータの事前学習モデルを再利用するための、プリトレイン、プロンプト、ファインチューニングからなるスケーラブルなパラダイムを導入する。
- 標準ベンチマークでゼロショットおよびFew-shot転移能力を示す。
- テキストプロンプトと慎重に設計された視覚プロンプトが性能を向上させ、破壊的忘却を回避することを示す。
提案手法
- 動画エンコーダ gV と言語エンコーダ gW を介して action recognition を P(f(x,y)|θ) と定式化し、クロスモーダル類似度 s(x,y) を最大化する。
- 余弦類似度と対称的な p_x2y, p_y2x を温度 τ とともに用い、動画–テキスト対全体の対比KL損失を定義する。
- 関連する動画とラベル表現を近づけるマルチモーダル訓練目的(video–text contrastive loss)を採用する。
- 新しいパラダイムを提案する:Webデータで事前学習し、テキストプロンプトと視覚プロンプトを適用して下流タスクを事前学習の目的と整合させ、ターゲットデータセットでエンドツーエンドにファインチューニングする。
- ActionCLIPをCLIPをベースモデルとして具体化し、ラベル文のテキストプロンプトと、時系列情報をモデル化するさまざまな視覚プロンプト(pre-network、in-network、post-network)を用いる。
- ゼロショットおよびFew-shot条件で評価し、モノモーダルなベースラインや既存の手法と比較する。
実験結果
リサーチクエスチョン
- RQ1ラベルテキストに含まれる意味情報は、従来の単一モーダル分類と比較してアクション認識を改善できるか。
- RQ2プリトレイン、プロンプト、ファインチューニングパラダイムは、標準ベンチマーク上で効果的なゼロショットおよびFew-shotアクション認識を実現できるか。
- RQ3テキストプロンプトと異なる視覚プロンプトは、事前学習済みモデルをビデオ動作へ適用する際の性能と知識保持(崩壊的忘却)にどのように影響するか。
主な発見
| バックボーン | フレーム数 | Top-1 | Top-5 | GFLOPs | パラメータ | 実行時間 |
|---|---|---|---|---|---|---|
| TimeSformer-L | 96 | 80.7 | - | 7140 | - | - |
| ViViT-L/16x2 | 320 | 32 | 81.3 | 3992 | - | 4.2V/s |
| ViT-B/32 | 8 | 78.4 | 35.4 | 144.1M | 144.7V/s | - |
| ViT-B/32 | 8 | 81.1 | 140.8 | 141.7M | 43.2V/s | - |
| ViT-B/16 | 8 | 82.3 | 563.1 | 141.7M | 13.0V/s | - |
| ViT-B/16 | 16 | 81.7 | 281.6 | 141.7M | 21.2V/s | - |
| ViT-B/16 | 32 | 82.3 | 563.1 | 141.7M | 13.0V/s | - |
- マルチモーダルフレームワークは、単一モーダルベースラインよりTop-1精度を2.91ポイント向上させる(Kinetics-400での実装では75.45%から78.36%へ)。
- ActionCLIPはViT-B/16を16フレームで用いてKinetics-400で82.6% top-1と96.2% top-5を達成し、16フレームでの82.6%/96.2%を達成;32フレームで83.8% top-1に達する(ViT-B/16)。
- ゼロショット/ Few-shot の結果は、データが乏しい設定でActionCLIPが優れており、Kinetics-400、HMDB-51、UCF-101でゼロショット認識を可能にする一方で、一部ベースラインが苦戦する。
- テキストラベルを促すことで、ラベル語のみを用いる場合より性能が向上する(77.82% -> 78.36% top-1)。
- 視覚プロンプトは性能に影響を与える;post-network prompts (MeanP, LSTM, Conv1D, Transf) が高い結果を生む一方、pre-network Joint および in-network Shift は性能を低下させる可能性があり、崩壊的忘却を防ぐプロンプト設計の重要性を示す。
- 全コンポーネントのファインチューニングが最良の結果をもたらす。エンコーダを凍結すると性能が低下する(アブレーションの例:V1–V4)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。