[論文レビュー] Memory-augmented Dense Predictive Coding for Video Representation Learning
MemDPC は memory-augmented predictive coding フレームワークを用いた自己监督型映像表現学習を導入し、compressive memory と predictive attention により複数の未来仮説を可能にし、視覚入力のみでアクション認識、取得、データ不足学習、非意図的アクション検出において最先端または競争力のある結果を達成する。
The objective of this paper is self-supervised learning from video, in particular for representations for action recognition. We make the following contributions: (i) We propose a new architecture and learning framework Memory-augmented Dense Predictive Coding (MemDPC) for the task. It is trained with a predictive attention mechanism over the set of compressed memories, such that any future states can always be constructed by a convex combination of the condense representations, allowing to make multiple hypotheses efficiently. (ii) We investigate visual-only self-supervised video representation learning from RGB frames, or from unsupervised optical flow, or both. (iii) We thoroughly evaluate the quality of learnt representation on four different downstream tasks: action recognition, video retrieval, learning with scarce annotations, and unintentional action classification. In all cases, we demonstrate state-of-the-art or comparable performance over other approaches with orders of magnitude fewer training data.
研究の動機と目的
- 視覚ストリームのみを用いた自己监督型映像表現学習を動機づける。
- MemDPC を提案する。これは compressive memory を備えた memory-augmented dense predictive coding フレームワークであり、マルチ仮説未来予測を可能にする。
- MemDPC を action recognition、retrieval、data-scarce learning、unintentional action detection の各領域で評価し、最先端または競争力のある結果を確立する。
提案手法
- ビデオをブロックに分割し、共有エンコーダ f(.) で各ブロック埋め込みを抽出して z_i を得る。
- ブロック埋め込みを時系列モデル g(.) で集約して past 情報を要約するコンテキスト c_t を形成する。
- Compressive Memory M = {m_i} を導入し、予測アドレス指定機構 p = softmax(φ(c_t)) によってマルチ仮説未来予測を有効化する。
- 未来のブロック表 representations ŷ_{t+1} を memory slot の凸結合として予測する: ŷ_{t+1} = p_t+1 M、ここで p は φ(.)(MLP) によって学習される。
- 密集型対照的予測損失を用いて、整列した未来ブロック (ŷ_{i,k}, z_{i,k}) の類似度を、バッチ内および時空間位置のネガティブより高くするように訓練する。
- 任意で MemDPC を two-stream 入力(RGB と光 flow)と bidirectional aggregation で拡張し、表現を向上させる。
実験結果
リサーチクエスチョン
- RQ1自己 superviser 設定における自然なマルチ仮説の未来フレームを memory-augmented predictive framework が扱えるか。
- RQ2compressive external memory を組み込むことで predictive coding と downstream task の性能が標準 DPC と比較して向上するか。
- RQ3RGB、光 flow、または両方を使用した場合の learned 表現が downstream task に与える影響はどうなるか。
- RQ4self-supervised video representations を評価する際に linear vs. non-linear probes および end-to-end fine-tuning はどの程度有効か。
- RQ5MemDPC は action recognition、video retrieval、low-data learning、unintentional action classification でどの程度の性能を示すか。
主な発見
| ネットワーク | Self-Sup. | Sup. | データセット | 入力 | 解像度 | メモリサイズ | UCF101(ft) |
|---|---|---|---|---|---|---|---|
| A | R18 | UCF101 | RGB | 128x128 | - | - | 63.6 |
| B1 | R18 | - | RGB | 128x128 | - | - | 61.8 |
| B2 | R18 | - | Flow | 128x128 | - | - | 74.6 |
| B3 | R18×2 | - | RGB+F | 128x128 | - | - | 78.7 |
| C1 | R18 | UCF101 | RGB | 128x128 | 512 | 512 | 65.3 |
| C2 | R18 | UCF101 | RGB | 128x128 | 1024 | 1024 | 68.2 |
| C3 | R18 | UCF101 | RGB | 128x128 | 2048 | 2048 | 68.0 |
| D1 | R18 | UCF101 | Flow | 128x128 | 1024 | 1024 | 81.9 |
| D2 | R18×2 | UCF101 | RGB+F | 128x128 | 1024 | 1024 | 84.0 |
| E1 | R18-bd | UCF101 | RGB | 128x128 | 1024 | 1024 | 69.2 |
| E2 | R18-bd | UCF101 | Flow | 128x128 | 1024 | 1024 | 82.3 |
| E3 | R18-bd×2 | UCF101 | RGB+F | 128x128 | 1024 | 1024 | 84.3 |
- compressive memory を用いた MemDPC は、視覚入力のみを用いた複数のベンチマークで一貫して最先端またはそれを超える性能を示す。
- アブレーションで memory size が 1024 のときに最良の UCF101 結果を出すことが多い。
- Bidirectional aggregation および two-stream 拡張(RGB+Flow)は追加的な利得を提供し、flow ベースの取得とアクション認識で顕著な改善をもたらす。
- K400 の事前学習では、MemDPC は linear、非線形、フルファインチューニングのいずれのプロトコルでも競争力のある UCF101 および HMDB51 精度を達成し、多くの場合より大きなデータセットやマルチモーダル入力を用いる手法を上回る。
- MemDPC はデータ効率の高さを示し、ラベル付きデータが不足する場合にも表現が大幅な改善を可能にする。
- 動画検索では、Flow を用いた MemDPC が R@k スコアを劇的に改善し、RGB+Flow 融合は視覚のみの自己 supervisé 学習法の中で優れた性能を達成。
- 非意図的なアクション分類(Oops dataset)において MemDPC は state-of-the-art の結果を達成し、コンパクトなバックボーンと自己 supervisé 事前学習にもかかわらず高い性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。