[論文レビュー] Learning Spatiotemporal Features via Video and Text Pair Discrimination
本論文は、ノイズ対照学習とカリキュラム学習を用いてノイズの多い動画-テキスト対を学習し、動画の時空表現を獲得するクロスモーダルペア識別(CPD)フレームワークを提案する。これにより、弱教師あり学習および転移性能が競争力を持つ。
Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we leverage this visual-textual connection to learn spatiotemporal features in an efficient weakly-supervised manner. We present a general cross-modal pair discrimination (CPD) framework to capture this correlation between a video and its associated text. Specifically, we adopt noise-contrastive estimation to tackle the computational issue imposed by the huge amount of pair instance classes and design a practical curriculum learning strategy. We train our CPD models on both standard video dataset (Kinetics-210k) and uncurated web video dataset (Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning, the learnt models obtain competitive results for action classification on Kinetics under the linear classification protocol. Moreover, our visual model provides an effective initialization to fine-tune on downstream tasks, which yields a remarkable performance gain for action recognition on UCF101 and HMDB51, compared with the existing state-of-the-art self-supervised training methods. In addition, our CPD model yields a new state of the art for zero-shot action recognition on UCF101 by directly utilizing the learnt visual-textual embeddings. The code will be made available at https://github.com/MCG-NJU/CPD-Video.
研究の動機と目的
- 動画に付随する豊富なテキストを活用して手動アノテーションなしで動画表現を学習する動機づけ。
- 動画とテキストを共有埋め込み空間で整合させ、特徴学習を監視するクロスモーダルフレームワークを提案。
- ノイズが多くウェブ由来のテキストに潜むスケールとノイズを、ノイズ対照推定とカリキュラム学習で扱う。
- ウェブと標準データセットで事前学習したCPDが、アクション認識タスクにおいて線形評価・転移性能ともに競争力を示すことを実証。
提案手法
- 動画とテキストを単位ノルム制約を持つ共通の256次元空間へ埋め込む。
- 対応する動画-テキスト対とネガティブ例を横断してf^t^T f^vを最大化するクロスモーダルペア識別目的を用い、クロスモーダル相関モデリングを強化。
- 結合分布モデリングを、視覚-テキスト関係をより良く捉えるため条件分布p(i_t|v)およびp(i_v|t)へ置換。
- 大規模クラス目標を近似するためメモリーバンクを用いたノイズ対照推定と、言語モデルを先に固定しその後ネットワークを共同調整するカリキュラム訓練戦略で最適化。
- 動画特徴には3D CNNバックボーン(3D ResNet34/50)を、テキスト特徴にはWord2VecまたはDistilBERTを用い、共有埋め込み空間へ投影。
実験結果
リサーチクエスチョン
- RQ1ノイズの多いウェブ動画-テキスト対から弱教師付き動画表現を効果的に学習できるか。
- RQ2クロスモーダルペア識別は、動画表現学習における他のクロスモーダルまたは単純な視覚自己教師付き目的より優れているか。
- RQ3カリキュラム学習とテキストエンコーダは、学習された時空間特徴の品質にどのように影響するか。
- RQ4CPDの小〜中規模データセットでの事前学習は、下流のアクション認識タスクへどの程度転移可能か。
- RQ5CPDアプローチは、データソース間のテキスト情報ノイズ(例:Kineticsのタイトル vs. Instagramのキャプション)に対して堅牢か。
主な発見
| Method | Supervision | Backbone | Pre-trained Dataset | frozen | UCF101 | HMDB51 |
|---|---|---|---|---|---|---|
| Random Init. | - | 3D ResNet18 | - | x | 42.4 | 17.1 |
| Kinetics Pre-trained (Action label) | Action label | 3D ResNet50 | Kinetics | x | 89.3 | 61.0 |
| Supervised SOTA (Xie et al., 2018) | Action label | S3D | Kinetics | x | 96.8 | 75.9 |
| Shuffle & Learn (Misra et al., 2016) | Order verification | CaffeNet | UCF101/HMDB51 | x | 50.2 | 18.1 |
| OPN (Lee et al., 2017) | Sequence order | VGGNet | UCF101/HMDB51 | x | 59.8 | 23.8 |
| CMC (Tian et al., 2019) | Optical flow | CaffeNet | UCF101 | x | 55.3 | - |
| O3N (Fernando et al., 2017) | Odd-one-out | AlexNet | UCF101 | x | 60.3 | 32.5 |
| MASN (Wang et al., 2019a) | Motion | C3D | Kinetics-400 | x | 61.2 | 33.4 |
| COP (Xu et al., 2019b) | Clip order | 3D ResNet10 | UCF101 | x | 64.9 | 29.5 |
| DPC (Han et al., 2019) | Prediction | 3D ResNet34 | Kinetics-400 | x | 75.7 | 35.7 |
| CBT (Sun et al., 2019a) | Audio(Text)/Context | S3D | Kinetics-600 | x | 79.5 | 44.6 |
| AVTS (Korbar et al., 2018) | Audio | I3D | Kinetics-600 | x | 83.7 | 53.0 |
| AVTS (Korbar et al., 2018) | Audio | MC3 | Audioset-1.8M | x | 89.0 | 61.6 |
| XDC (Alwassel et al., 2019) | Audio | R(2+1)D | Kinetics-400 | x | 84.2 | 47.1 |
| XDC (Alwassel et al., 2019) | Audio | R(2+1)D | IG-65M | x | 91.5 | 63.1 |
| MIL-NCE (Miech et al., 2020) | Audio(Text) | S3D | HT-100M | ✓ | 82.7 | 53.1 |
| MIL-NCE (Miech et al., 2020) | Audio(Text) | S3D | HT-100M | x | 91.3 | 61.0 |
| TWS (Stroud et al., 2020) | Text (Title, Des, Tag etc.) | S3D-G | WVT-70M | x | 90.3 | 65.3 |
| CPD (Ours) | Title | 3D ResNet50 | Kinetics-210k | x | 90.5 | 63.6 |
| CPD (Ours) | Caption | 3D ResNet50 | Instagram-300k | ✓ | 83.7 | 54.7 |
| CPD (Ours) | Caption | 3D ResNet50 | Instagram-300k | x | 92.8 | 63.8 |
- クロスモーダルペア識別を用いたCPDは、線形評価下でKinetics上のアクションクラス分類性能で競争力を示す。
- Kinetics-210kまたはInstagram-300kで事前学習したCPDは、UCF101およびHMDB51でのファインチューニング時に有力な初期化を提供し、いくつかの自己教師付きベースラインを上回る。
- クロスモーダルペア識別は、ランキング損失ベースラインおよびマルチモーダルインスタンス識別を上回り、有用な動画表現の学習に寄与する。
- テキストモデルを先に固定してから共同微調整を行うカリキュラム学習は、直接のファインチューニングより改善を示し、テキストノイズの扱いが改善される。
- 比較的小さなデータセット(0.3M動画)でのCPD事前学習は、はるかに多くのデータを使用する最先端手法に匹敵し、限られた計算環境での実用性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。