QUICK REVIEW

[論文レビュー] Unsupervised Learning of View-invariant Action Representations

Junnan Li, Yongkang Wong|arXiv (Cornell University)|Sep 6, 2018

Human Pose and Action Recognition参考文献 56被引用数 70

ひとこと要約

本論文は、ソース視点からのクロスビュー3D動作の予測を通じてビュー不変なビデオ表現を学習する教師なしフレームワークを提案し、ビュー間および被験者間のアクション認識性能の高さを示します。

ABSTRACT

The recent success in human action recognition with deep learning methods mostly adopt the supervised learning paradigm, which requires significant amount of manually labeled data to achieve good performance. However, label collection is an expensive and time-consuming process. In this work, we propose an unsupervised learning framework, which exploits unlabeled data to learn video representations. Different from previous works in video representation learning, our unsupervised learning task is to predict 3D motion in multiple target views using video representation from a source view. By learning to extrapolate cross-view motions, the representation can capture view-invariant motion dynamics which is discriminative for the action. In addition, we propose a view-adversarial training method to enhance learning of view-invariant features. We demonstrate the effectiveness of the learned representations for action recognition on multiple datasets.

研究の動機と目的

ラベル付きデータへの依存を減らす動機づけとして、ラベルなしのマルチビュー動画データを活用したアクション認識を促進する。
ソース視点から複数の視点の3Dフローを予測できるビュー不変の動作表現を学習する。
ビュー不変性を促進するためのビュー対抗トレーニング目的関数。
RGB、深度、フローのモダリティを横断した被験者間・視点間のアクション認識で有効性を示す。

提案手法

モーション感度の特徴を抽出するために、CNN+BiLSTMベースのエンコーダでマルチビューの動画フレームをエンコードする。
視点特有の深度アンカーを用いるクロスビュー・デコーダを使って、他の視点の3Dフロー列を予測する。
同一視点のフローを再構成デコーダで再構成して、モーションダイナミクスの把握を強化する。
勾配反転層を備えたビュー分類子を適用して、ビュー不変な表現を促進する（対向学習）。
クロスビューのフロー予測、フロー再構成、ビュー分類からの損失を組み合わせてエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1教師なしモデルは、クロスビュー動作を予測することによって視点変化に頑健な表現を学習できるか。
RQ2ビュー対向訓練は、学習表現の不変性と識別力にどのような影響を与えるか。
RQ3学習された表現は、複数モダリティにまたがる被験者間および視点間のアクション認識へ効果的に転移するか。

主な発見

方法	クロスサブジェクト RGB	クロスサブジェクト Depth	クロスサブジェクト Flow	クロスビュー RGB	クロスビュー Depth	クロスビュー Flow
proposed method w/o \\u03bb_recon & \\u03bb_cls	0.0267	0.0244	0.0201	0.0265	0.0238	0.0199
proposed method w/o \\u03bb_cls	0.0259	0.0235	0.0198	0.0252	0.0223	0.0194
proposed method	0.0254	0.0229	0.0193	0.0248	0.0220	0.0193

フローベースのクロスビュー予測は、RGB、深度、フローの中で最も強く、フローがよりビュー不変な動作情報を含むことを示している。
フロー再構成とビュー対向訓練を組み込むと、モダリティを超えたクロスビューのフロー予測が向上する。
教師なし学習で得られた表現は競争力のあるアクション認識を可能にし、特にフロー入力で効果的で、監視付き評価時にエンコーダを微調整または固定するとさらに効果を得る。
このアプローチは、いくつかのベースラインより被験者間および視点間の精度で優れており、他モダリティを用いた最先端手法と競合する結果を達成する。
他データセット（MSR-DailyActivity3DおよびNorthwestern-UCLA MultiviewAction3D）への転移は、微調整時に学習表現がドメイン横断で一般化することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。