QUICK REVIEW

[論文レビュー] Unsupervised Learning using Sequential Verification for Action Recognition.

Ishan Misra, C. Lawrence Zitnick|arXiv (Cornell University)|Mar 28, 2016

Human Pose and Action Recognition参考文献 75被引用数 36

ひとこと要約

本論文では、動画フレームの正しい時系列順序を検証するようにCNNを訓練することにより、意味的ラベルなしで強力な空間時間的表現を学習する非教師あり学習手法を提案する。この手法は、事前学習として使用することでUCF101およびHMDB51で顕著な精度向上を達成し、最小限の教師あり情報でFLICにおける人間のポーズ推定でも競争力ある結果をもたらす。

ABSTRACT

In this paper, we consider the problem of learning a visual representation from the raw spatiotemporal signals in videos for use in action recognition. Our representation is learned without supervision from semantic labels. We formulate it as an unsupervised sequential verification task, i.e., we determine whether a sequence of frames from a video is in the correct temporal order. With this simple task and no semantic labels, we learn a powerful unsupervised representation using a Convolutional Neural Network (CNN). The representation contains complementary information to that learned from supervised image datasets like ImageNet. Qualitative results show that our method captures information that is temporally varying, such as human pose. When used as pre-training for action recognition, our method gives significant gains over learning without external data on benchmark datasets like UCF101 and HMDB51. Our method can also be combined with supervised representations to provide an additional boost in accuracy for action recognition. Finally, to quantify its sensitivity to human pose, we show results for human pose estimation on the FLIC dataset that are competitive with approaches using significantly more supervised training data.

研究の動機と目的

意味的ラベルに依存せずに、生の動画空間時間信号から意味のある視覚的表現を学ぶこと。
教師ありラベルが限られている動画行動認識の課題に対処するため、自己教師あり学習タスクを定式化すること。
人間のポーズ変化などの時間的に変化する特徴を、非教師あり事前学習によって捉える手法を開発すること。
UCF101やHMDB51などのベンチマークデータセットにおける下流の行動認識性能を、非教師あり事前学習を用いて向上させること。
ポーズ関連の特徴に敏感であるかどうかを評価するため、最小限の教師あり情報で人間ポーズ推定などの他のビジョンタスクへの適用性を評価すること。

提案手法

本手法は、非教師あり学習を順序検証タスクとして定式化する：動画フレームの系列が正しい時系列順序にあるかどうかを判断すること。
畳み込みニューラルネットワーク（CNN）を、系列を「正しい順序」または「誤った順序」と分類するように訓練し、この2値分類を通じて時間的依存関係を学習する。
ネットワークは、人間の動きやポーズ変化などの動的で時間的に変化する視覚パターンをエンコードする表現を学習する。
学習された表現を、UCF101およびHMDB51における下流の行動認識モデルの事前学習に使用する。
ImageNetからの教師あり表現と組み合わせることで、さらに性能向上が達成できる。
ポーズ関連の特徴を捉えられるかどうかを評価するため、FLICデータセットを用いて人間ポーズ推定タスクで手法を評価する。

実験結果

リサーチクエスチョン

RQ1単純な非教師あり順序検証タスクは、生の動画から効果的な空間時間的表現を学習できるか？
RQ2非教師あり表現は、UCF101やHMDB51のような標準ベンチマークで行動認識にどれほど一般化できるか？
RQ3学習された表現が、人間のポーズのような時間的に変化する特徴をどれほど捉えられるか？
RQ4非教師あり表現を教師あり表現と効果的に組み合わせることで、行動認識の精度をさらに向上させられるか？
RQ5ゼロショットまたは低ショットの転移タスク、例えば人間ポーズ推定において、この手法はどの程度の性能を示すか？

主な発見

非教師あり順序検証手法は、事前学習として使用した場合、UCF101およびHMDB51で顕著な精度向上を達成し、外部データなしで学習したモデルを上回る。
学習された表現は、人間のポーズの変化のような時間的に変化する視覚的情報を捉えていることが、定性的な分析で示された。
本手法はImageNetの教師あり特徴とは補完的であり、両者を組み合わせることでさらなる性能向上が得られた。
人間ポーズ推定のためのFLICデータセットでは、はるかに多くの教師あり学習データを用いた手法と比較しても、競争力ある結果を達成した。
本手法は下流のビジョンタスクへの高い転送性を示しており、学習された表現が意味的に意味のあるものであり、時間的に敏感であることが示された。
順序検証タスクは、明示的な教師あり情報なしで、動きや時間的構造を効果的に学習させるようにネットワークを促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。