QUICK REVIEW

[論文レビュー] Self-Supervised Spatio-Temporal Representation Learning Using Variable Playback Speed Prediction

Hyeon Cho, Taehoon Kim|arXiv (Cornell University)|Mar 5, 2020

Human Pose and Action Recognition被引用数 30

ひとこと要約

本論文は、ラベルなしで時間的ダイナミクスを学習するため、動画クリップの変動する再生速度を予測する自己教師あり時空間表現学習手法を提案する。3D畳み込みニューラルネットワーク（3D CNN）を、前向きおよび逆向きの再生速度を含め、クリップを再生速度の順に並べ替えるように訓練し、レイヤー依存の時系列グループ正規化を導入することで、アクション認識ベンチマークで最先端の性能を達成した。

ABSTRACT

We propose a self-supervised learning method by predicting the variable playback speeds of a video. Without semantic labels, we learn the spatio-temporal representation of the video by leveraging the variations in the visual appearance according to different playback speeds under the assumption of temporal coherence. To learn the spatio-temporal variations in the entire video, we have not only predicted a single playback speed but also generated clips of various playback speeds with randomized starting points. We then train a 3D convolutional network by solving the formulation that sorts the shuffled clips by their playback speed. In this case, the playback speed includes both forward and reverse directions; hence the visual representation can be successfully learned from the directional dynamics of the video. We also propose a novel layer-dependable temporal group normalization method that can be applied to 3D convolutional networks to improve the representation learning performance where we divide the temporal features into several groups and normalize each one using the different corresponding parameters. We validate the effectiveness of the proposed method by fine-tuning it to the action recognition task. The experimental results show that the proposed method outperforms state-of-the-art self-supervised learning methods in action recognition.

研究の動機と目的

人間によるラベルなしで、動画内の強固な時空間表現を学習すること。
時間的整合性と異なる再生速度における視覚的外観の変化を、教師信号として活用すること。
前向きおよび逆向きの再生ダイナミクスをモデル化することで、3D CNNの学習を向上させること。
レイヤーに依存する時系列グループ正規化法を用いて、3D畳み込みにおける特徴正規化を向上させること。

提案手法

ランダムな開始位置と多様な再生速度（逆再生を含む）を持つ動画クリップを生成し、多様な訓練サンプルを作成する。
シャッフルされたクリップを再生速度の順に並べ替えるように3D畳み込みニューラルネットワークを訓練し、対照的学習の目的関数を形成する。
本手法は時間的整合性を活用する：再生速度が異なる間でも一貫した視覚的変化が、表現学習の教師信号を提供する。
レイヤーに依存する時系列グループ正規化という新規手法を導入し、レイヤー固有のパラメータを用いて時系列特徴をグループ化・正規化することで、特徴品質を向上させる。
自己教師ありの方法で事前学習を行い、その後、下流のアクション認識タスクで微調整する。
クリップの再生速度による並べ替えを多クラス分類問題として扱い、時間的ダイナミクスを区別する能力を学習する。

実験結果

リサーチクエスチョン

RQ1可変再生速度予測は、動画の時空間表現を学習するための有効な自己教師あり信号として機能するか？
RQ2前向きおよび逆向きの再生方向を同時にモデル化することで、時間的ダイナミクスの学習はどのように向上するか？
RQ3レイヤーに依存する時系列グループ正規化法は、3D CNNにおける表現学習をどの程度向上させるか？
RQ4提案手法は、既存の自己教師あり手法と比較して、アクション認識ベンチマークで最先端の性能を達成するか？

主な発見

提案手法は、アクション認識ベンチマークにおいて、最先端の自己教師あり学習手法を上回った。
逆再生速度の導入により、モデルは動画シーケンスにおける方向性ダイナミクスを捉える能力が向上した。
レイヤーに依存する時系列グループ正規化法により、特徴表現の品質が向上し、性能向上に寄与した。
標準的なアクション認識データセットにおいて、ゼロショットおよび微調整性能が強く、一般化能力を示した。
自己教師あり事前学習戦略は、人間によるラベルを一切必要とせず、効果的に時空間特徴を学習した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。