[論文レビュー] Self-supervised Video Representation Learning by Pace Prediction
モーションチャネルを用いずに動画表現を学習する自己教師付き前処理タスクとしてペース予測を提案し、対照学習で強化する。複数のバックボーンにわたってアクション認識と動画検索で最先端の成果を達成。
This paper addresses the problem of self-supervised video representation learning from a new perspective -- by video pace prediction. It stems from the observation that human visual system is sensitive to video pace, e.g., slow motion, a widely used technique in film making. Specifically, given a video played in natural pace, we randomly sample training clips in different paces and ask a neural network to identify the pace for each video clip. The assumption here is that the network can only succeed in such a pace reasoning task when it understands the underlying video content and learns representative spatio-temporal features. In addition, we further introduce contrastive learning to push the model towards discriminating different paces by maximizing the agreement on similar video content. To validate the effectiveness of the proposed method, we conduct extensive experiments on action recognition and video retrieval tasks with several alternative network architectures. Experimental evaluations show that our approach achieves state-of-the-art performance for self-supervised video representation learning across different network architectures and different benchmarks. The code and pre-trained models are available at https://github.com/laura-wang/video-pace.
研究の動機と目的
- 人間の知覚に対応する動画のペース感度を用いて、自己教師付き動画表現学習を動機づける。
- 異なるペースでランダムにサンプリングしたクリップを用いて空間-時間特徴を学習するペース予測の前処理タスクを導入する。
- ペース課題を対照学習で強化し、正則化と識別力の向上を図る。
- アクション認識と動画検索において、複数のバックボーン(C3D、3D-ResNet、R(2+1)D、S3D-G)を用いて評価する。
- 本手法の有効性と、ラベルなし動画データでのスケーラビリティの可能性を示す。
提案手法
- ラベルなし動画から複数のペース率で動画クリップをサンプルし、ペース予測の前処理タスクを作成する。
- 入力クリップに適用されたペースを分類するため、3D CNNバックボーンを訓練し、交差エントロピー損失を用いる。
- ポジティブペア(同じペースまたは同じ文脈)間の一致を最大化し、ネガティブを分離するよう対照学習を組み込む。
- 同じ文脈(内容認識)と同じペース(内容非依存)の2つの対照設定を検討し、性能への影響を評価する。
- ペース予測損失と対照損失を重み付き和の目的関数で結合する。
- C3D、3D-ResNet、R(2+1)D、S3D-Gなどの複数のバックボーンと、アクション認識や動画検索などの下流タスクで評価する。

実験結果
リサーチクエスチョン
- RQ1ペースベースの前処理タスクは、モーションチャネルなしで強力な空間-時間動画表現を学習できるだろうか?
- RQ2ペース予測で学習した表現に対し、対照学習を追加することでさらに改善されるか?
- RQ3異なるバックボーンアーキテクチャはペースベースの自己監視にどう応答するか?
- RQ4同じ文脈と同じペースの対照戦略が下流の性能に与える影響はどの程度か?
- RQ5ラベルなしデータで事前学習した場合、標準的な動画理解ベンチマーク(アクション認識と検索)で提案手法はどの程度の性能を示すか?
主な発見
- ペース予測だけで、複数のバックボーンでランダム初期化と比較して強い改善をもたらす。
- 対照学習の組み込みにより性能がさらに向上し、多くの設定で同じ文脈の対照が同じペースより一般に上回る。
- R(2+1)Dバックボーンとペース予測は、評価した構成の中でUCF101とHMDB51でトップの結果を達成。
- ペース予測と文脈ベースの対照学習の組み合わせは、最先端または競合的な自己-supervised手法に対して最先端のまたは競争力のある結果を生む。
- 注意機構の可視化は、ペースベースの監視で訓練された場合、モデルが動き領域に焦点を当てることを示しており、学習した空間-時間推論を支持している。
- このアプローチは、動画モダリティのみを用いたアクション認識と動画検索のタスクで高い性能を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。