QUICK REVIEW

[論文レビュー] SFV: Reinforcement Learning of Physical Skills from Videos

Xue Bin Peng, Angjoo Kanazawa|arXiv (Cornell University)|Oct 8, 2018

Human Motion and Animation被引用数 40

ひとこと要約

SFVは、単眼動画から直接、ポーズ推定、モーション再構成、そして強化学習を組み合わせることで、シミュレーションキャラクターのダイナミックで物理的にあり得るスキルを学習し、異なる形態や環境へのリターゲティングを可能にします。

ABSTRACT

Data-driven character animation based on motion capture can produce highly naturalistic behaviors and, when combined with physics simulation, can provide for natural procedural responses to physical perturbations, environmental changes, and morphological discrepancies. Motion capture remains the most popular source of motion data, but collecting mocap data typically requires heavily instrumented environments and actors. In this paper, we propose a method that enables physically simulated characters to learn skills from videos (SFV). Our approach, based on deep pose estimation and deep reinforcement learning, allows data-driven animation to leverage the abundance of publicly available video clips from the web, such as those from YouTube. This has the potential to enable fast and easy design of character controllers simply by querying for video recordings of the desired behavior. The resulting controllers are robust to perturbations, can be adapted to new settings, can perform basic object interactions, and can be retargeted to new morphologies via reinforcement learning. We further demonstrate that our method can predict potential human motions from still images, by forward simulation of learned controllers initialized from the observed pose. Our framework is able to learn a broad range of dynamic skills, including locomotion, acrobatics, and martial arts.

研究の動機と目的

高価なモーションキャプチャデータよりも豊富な動画データを用いて、データ駆動型のキャラクターアニメーションを推進する。
動画デモンストレーションを、シミュレーションキャラクターの物理的に妥当な参照モーションへ変換するパイプラインを開発する。
物理ベースの環境でこれらの参照を模倣するための堅牢なポリシー学習を強化学習で実現する。
低忠実度の動画由来参照からの長期模倣を改善する適応的状態初期化を導入する。
異なる形態へのリターゲティングと、静止画像からのモーション完了の可能性を示す。

提案手法

2D/3Dポーズ推定（OpenPoseとHMR）を、潜在空間の軌跡を最適化して一貫した3D参照モーションを生成する適応的モーション再構成段と統合する。
潜在空間z_tで最適化し、2D再投影、3D一貫性、時系列平滑性の損失の加重和を最小化して参照モーションを再構成する。
物理ベースのシミュレータで再構成された参照モーションを模倣するため、PPO系の強化学習を用いてポリシーπ(a|s)を学習する。
探索とカリキュラムを改善するため、長期的模倣時の初期状態提案を行う第二のエージェントを導入する適応的状態初期化（ASI）。
姿勢、速度、エンドエフェクタ、および重心報酬を組み合わせた報酬で、安定性を保ちながらシミュレーション運動を参照と一致させる。
静止画像に最も適合する参照モーションを選択し、対応するポリシーで前方にシミュレーションしてモーション完了を実証する。

実験結果

リサーチクエスチョン

RQ1単眼動画は、物理的にシミュレーションされたキャラクターの多様でダイナミックなスキルを学習するのに十分な運動データを提供できるか？
RQ2ポーズ推定の誤差や非物理的なアーティファクトをどのように緩和して、物理エンジンでの信頼できる模倣を可能にするか？
RQ3低忠実度の動画由来参照モーションを模倣する際に、適応的状態初期化は学習効率と品質を向上させるか？
RQ4学習済みコントローラを、スキル忠実度を保ったまま、どの程度異なる形態や環境へリターゲットできるか？
RQ5学習済みコントローラのライブラリは、単一の静止画像からのモーション完了を可能にするか？

主な発見

このフレームワークは、動画から、移動、アクロバット、武道を含むダイナミックなスキルの広範なレパートリーを再現できる。
モーション再構成は潜在姿勢空間で、直接フレームごとのポーズ列と比較して参照品質と模倣性能を向上させる。
ASIは初期状態分布を適応させることで長期的模倣を改善し、難易度の高い操作に対してより良いカリキュラムを可能にする。
SFVで学習されたポリシーは外乱に対して頑健で、異なる形態や環境へリターゲティング可能である。
このアプローチは、単一の静止画像から未来のモーションを予測する新しい物理ベースのモーション完了アプリケーションを可能にする。
本システムは、動画由来の参照を高忠実度で物理的に妥当なモーションへ、シミュレーションで成功裏に伝達することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。