QUICK REVIEW

[論文レビュー] Unsupervised Learning of Video Representations using LSTMs

Nitish Srivastava, Elman Mansimov|arXiv (Cornell University)|Feb 16, 2015

Human Pose and Action Recognition参考文献 30被引用数 1,663

ひとこと要約

この論文では、ラベルなしのYouTube動画を用いて、非教師ありLSTMベースのオートエンコーダーおよび将来予測モデルを提案し、未加工の動画シーケンスから動画表現を学習する。ラベルなしでYouTube動画を学習させることで、分離可能で一般化可能な特徴を学習し、ラベル付きデータが少ない状況でもアクション認識の精度が向上することを示した。UCF-101およびHMDB-51において強い遷移学習性能を発揮した。

ABSTRACT

We use multilayer Long Short Term Memory (LSTM) networks to learn representations of video sequences. Our model uses an encoder LSTM to map an input sequence into a fixed length representation. This representation is decoded using single or multiple decoder LSTMs to perform different tasks, such as reconstructing the input sequence, or predicting the future sequence. We experiment with two kinds of input sequences - patches of image pixels and high-level representations ("percepts") of video frames extracted using a pretrained convolutional net. We explore different design choices such as whether the decoder LSTMs should condition on the generated output. We analyze the outputs of the model qualitatively to see how well the model can extrapolate the learned video representation into the future and into the past. We try to visualize and interpret the learned features. We stress test the model by running it on longer time scales and on out-of-domain data. We further evaluate the representations by finetuning them for a supervised learning problem - human action recognition on the UCF-101 and HMDB-51 datasets. We show that the representations help improve classification accuracy, especially when there are only a few training examples. Even models pretrained on unrelated datasets (300 hours of YouTube videos) can help action recognition performance.

研究の動機と目的

時間的順序モデリングを用いて、ラベルなしで意味的で分離可能な動画表現を非教師的に学習すること。
LSTMを用いた非教師的事前学習が、下流の教師ありアクション認識タスクのパフォーマンスに与える影響を評価すること。
再構成と将来予測の2つの訓練目的（再構成対比予測）が、表現品質に与える影響を調査すること。
学習時スケールを超えて、得られた表現の一般化および外挿能力を分析すること。
関連のない動画データ（例：300時間のYouTube）から学習した表現の、アクション認識ベンチマークへの転送可能性を評価すること。

提案手法

複数層のLSTMエンコーダーを用いて、動画フレームのシーケンスを固定長の潜在表現に圧縮する。
1つ以上のデコーダーLSTMを用いて、入力シーケンスの再構成またはエンコーディングされた表現からの将来フレームの予測を行う。
主に2つの目的でモデルを訓練する：オートエンコーディング（再構成）と将来予測。両方を組み合わせた複合モデルを用いる。
2種類の入力タイプを用いる：画像パッチ（例：MNISTの数字）と、事前学習済みImageNet畳み込みネットからの高レベルの知覚特徴。
生成された出力を再びデコーダーにフィードバックすることで条件付きデコードを実装し、条件付きと非条件付きの両方で性能を比較する。
UCF-101およびHMDB-51データセットを用いて、教師ありアクション認識タスクにおけるエンコーダーの微調整によって表現を評価する。

実験結果

リサーチクエスチョン

RQ1非教師ありLSTMベースのモデルは、ラベルなしで動きや外見の構造を捉える一般的な動画表現を学習できるか？
RQ2再構成と将来予測の両目的を組み合わせることで、単独で使用する場合と比較して、学習された表現の品質がどのように向上するか？
RQ3関連のない動画データ（例：300時間のYouTube）で事前学習した表現は、ラベル付きデータが限られた状況で、アクション認識のパフォーマンスをどの程度向上できるか？
RQ4モデルは学習時のシーケンス長を超えて、動きや外見をどの程度外挿できるか？
RQ5デコーダーを自身が生成した出力で条件づけることで、将来予測の品質や表現学習の質が向上するか？

主な発見

再構成と将来予測の両目的を統合した複合モデルが、アクション認識で最高のパフォーマンスを達成し、UCF-101では75.8%、HMDB-51では44.0%の精度を達成した。
300時間のYouTube動画で事前学習を施すことで、特にラベル付き例が少ない状況でアクション認識の精度が顕著に向上した。
学習時スケールを超えても、妥当な動きのシーケンスを継続的に生成する能力を示したが、長時間にわたる予測では物体の詳細が劣化した。
デコーダーを自身の出力で条件づけることで、教師ありタスクのパフォーマンスに顕著な向上は見られなかったが、質的にはやや優れた将来予測が得られた。
標準的なLSTMベースラインを上回り、LRCNやC3Dを含む、RGBデータのみを用いた最先端のモデルと同等またはそれを上回るパフォーマンスを示した。
RGBとフォローベースの予測を統合することで、UCF-101で84.3%の精度を達成し、他のモodalと統合する上で大きなポテンシャルを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。