[論文レビュー] InternVideo: General Video Foundation Models via Generative and Discriminative Learning
InternVideo は、マスク付きビデオモデリングとビデオと言語対比学習を統合することで一般的なビデオ基盤モデルを構築し、39のデータセットと複数のビデオタスクで最先端の結果を達成します。
The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
研究の動機と目的
- 画像中心の事前学習を超えた一般的なビデオ基盤モデルの必要性を動機付ける。
- マスク付きビデオモデリングとマルチモーダル対比学習を組み合わせた統一表現学習パラダイムを開発する。
- 生成的特徴と識別的特徴を融合するための効率的なクロス表現相互作用を可能にする。
- アクション理解、ビデオ言語整合、オープンワールドアプリケーションを横断する広範なベンチマークでこのアプローチを検証する。
提案手法
- 高いマスキング比率を用いたVideoMAE風のマスク付きビデオモデリングを用いて時空表現を学習する。
- クロスモーダル融合のためのキャプションデコーダを備えたCLIP風フレームワークに基づくビデオと言語対比学習を採用する。
- 下流性能を向上させるために、監視付きアクション認識(Kinetics-710)でポストトレーニングを行う。
- 別々の事前学習後に、マスク付きビデオとマルチモーダル表現を整列・融合させるためのクロスモデルアテンション(CMA)を導入する。
- CMA の間はバックボーンを凍結したまま、共同表現を学習しつつ安定性を維持する。
実験結果
リサーチクエスチョン
- RQ1マスク付きビデオモデリングとマルチモーダル対比学習の両方から学習された統一表現は、多様なビデオタスク全体に一般化できるだろうか?
- RQ2クロスモデルアテンションは、エンドツーエンドの連結トレーニングなしに、生成的特徴と識別的特徴を効果的に融合できるか?
- RQ3大規模データセットとモデルサイズにスケールした場合、これらのコンポーネント(VideoMAE、UniFormerV2 ベースのマルチモーダルエンコーダ)はどれだけスケーラブルか?
- RQ4監視付きポストプリトレーニングが、アクション理解とビデオ言語タスク全体の下流性能に与える影響はどの程度か?
- RQ5オープンワールドおよびゼロショット設定で、InternVideo はタスク別モデルと比較してどのように機能するか?
主な発見
| データセット | モデル | K400 | K600 | K700 |
|---|---|---|---|---|
| Kinetics-400 | InternVideo-D | 90.9 | 91.1 | 83.8 |
| Kinetics-400 | InternVideo-T | 91.1 | 91.3 | 84.0 |
- アクション理解、ビデオ言語整合、およびオープンワールドタスクの39データセットで最先端の結果を達成。
- Kinetics-400 では、InternVideo-D が 90.9% の top-1 精度、InternVideo-T が 91.1%(K400 に対して base より +1.2 のブースト)。
- Something-Something V1/V2、ActivityNet、HACS、HMDB51 では、従来のSOTA手法より大幅な改善を提供(例:SthSthV1: 70.0%、SthSthV2: 77.2%、ActivityNet: 94.3%、HACS: 95.5%、HMDB51: 89.3%)。
- 時間的・時空的局在タスク(THUMOS-14、ActivityNet-v1.3、HACS、FineAction)で、InternVideo が最先端の mAP 改善に競合することを示す(例:THUMOS-14 71.58、ActionFormer ヘッド)。
- ビデオ言語タスクは強力な検索とQA性能を示す。例:MSR-VTT/ Videos-to-Text 検索と Video QA がベースラインを上回る。ゼロショットおよびオープンセット転送は堅牢。
- クロスモデル相互作用(CMA)は、MAE とマルチモーダル特徴の効果的な融合を実現しつつバックボーンを凍結したまま、計算的に実用的なトレーニングレシピを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。