[論文レビュー] VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
VideoCoCa は事前学習済みの画像-テキスト CoCa モデルを再利用し、最小限の追加学習で動画-テキストタスクを実行し、ゼロショット性能を高め、VQAとキャプショニングの軽微な微調整を行う。
We explore an efficient approach to establish a foundational video-text model. We present VideoCoCa that maximally reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules, we find that the generative attentional pooling and contrastive attentional pooling layers in CoCa are instantly adaptable to flattened frame embeddings, yielding state-of-the-art results on zero-shot video classification and zero-shot text-to-video retrieval. Furthermore, we explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering and video captioning.
研究の動機と目的
- 凍結された画像-テキスト CoCa モデルを最小限の追加訓練で動画-テキストタスクへ拡張できることを示す。
- 動画分類とテキスト-to-動画検索において、動画専用モジュールを用いずゼロショット性能を示す。
- 効率性を維持しつつ、動画 QA とキャプショニングを改善する軽量な微調整戦略を模索する。
提案手法
- 事前学習済み画像エンコーダからのフレームごとのトークン埋め込みを長いシーケンスに展平する。
- 展平したフレーム列に対して既存のCoCaのアテンショナルプーラーを適用し、動画表現を得る(Attentional Pooler)。
- オプションとして、因子分解型または結合空間-時間エンコーダ、または平均プーリングといった軽量アダプタを追加する。
- VideoCC3M データと LiT(frozen encoder)戦略を用いて、パラメータのごく一部(attentional poolers および任意でデコーダ)だけを微調整する。
- 混合動画-テキストデータ(VideoCC3M、HowTo100M の検討)で事前学習を行い、ゼロショットおよび微調整済みの性能を動画タスク全体で評価する。
実験結果
リサーチクエスチョン
- RQ1最小限のパラメータと新しい動画特有モジュールを使わずに、事前学習済みの画像-テキスト CoCa モデルを動画-テキストタスクへ移植できるか?
- RQ2アダプタ戦略の異なる組み合わせ(Attentional Pooler、Factorized Encoder、Joint Space-Time、Mean Pooling)は、ゼロショットの動画分類と検索にどう影響するか?
- RQ3どの調整戦略(Full FT、Frozen、Frozen+FT、LiT)が、動画-テキスト適応において最も良い性能と効率をもたらすか?
- RQ4VideoCC3M での継続的な事前学習が、ゼロショットおよび微調整済みの動画タスクに与える影響は?
- RQ5オープンボキャブラリ動画分類、テキスト-to-動画検索、動画キャプショニング、動画QA における VideoCoCa の性能はどうか?
主な発見
| アダプター | 動画分類 Top-1 | 動画分類 Top-5 | 動画検索 R@1 | 動画検索 R@5 | 動画キャプ BLEU-4 | 動画キャプ CIDEr |
|---|---|---|---|---|---|---|
| 平均プーリング | 40.3 | 69.3 | 24.5 | 45.3 | 15.5 | 13.4 |
| 因子分解 Enc. | 43.3 | 72.7 | 24.9 | 45.6 | 15.5 | 17.2 |
| 結合空間-時間 | 38.1 | 65.5 | 22.6 | 43.8 | 14.7 | 12.1 |
| Attentional Pooler | 45.6 | 73.4 | 26.4 | 46.8 | 16.8 | 19.9 |
- Attentional Pooler は動画分類、テキスト-動画検索、動画キャプショニングのすべてで一貫して最高のゼロショット転送を提供する。
- Attentional Pooler を用いた VideoCoCa は、Kinetics および MSR-VTT 関連タスクにおいて Mean Pooling および他のアダプタ変種より高いゼロショット指標を達成する。
- LiTスタイルの微調整(画像エンコーダを凍結、プーラーおよびデコーダを訓練可能)により、微調整オプションの中でテキスト-to-動画検索とキャプショニングで最良の性能を発揮する。
- VideoCC3Mでの継続的な事前学習は、いくつかのタスクでゼロショット性能を動画なしベースラインより改善し、特定データセット(例:MSR-VTT、ActivityNet Captions、VATEX)で顕著な向上を示す。
- VideoCoCa はスケールに対して効果的であり、より大きなモデルは TFLOPs の増加が控えめでもより高い指標を達成し、同程度の計算量のもとで CoCa のベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。