QUICK REVIEW

[論文レビュー] Physics-as-Inverse-Graphics: Joint Unsupervised Learning of Objects and Physics from Video.

Miguel Jaques, Michael Burke|arXiv (Cornell University)|May 27, 2019

Model Reduction and Neural Networks参考文献 43被引用数 16

ひとこと要約

この論文は、物体や状態のラベルなしに、動画から物体の識別子、状態、物理的パラメータを同時に学習する、物理的要因を逆画像処理として扱うフレームワークを提案する。微分可能物理エンジンと視覚的逆画像処理を統合することで、ボール・スプリングや3体重力系のようなシステムにおいて、正確な長期的動画予測と、データ効率的で解釈可能なモデル予測制御を実現する。

ABSTRACT

We propose a model that is able to perform unsupervised physical parameter estimation of systems from video, where the differential equations governing the scene dynamics are known, but labeled states or objects are not available. Existing physical scene understanding methods require either object state supervision, or do not integrate with differentiable physics to learn interpretable system parameters and states. We address this problem through a physics-as-inverse-graphics approach that brings together vision-as-inverse-graphics and differentiable physics engines, enabling objects and explicit state and velocity representations to be discovered. This framework allows us to perform long term extrapolative video prediction, as well as vision-based model-predictive control. Our approach significantly outperforms related unsupervised methods in long-term future frame prediction of systems with interacting objects (such as ball-spring or 3-body gravitational systems), due to its ability to build dynamics into the model as an inductive bias. We further show the value of this tight vision-physics integration by demonstrating data-efficient learning of vision-actuated model-based control for a pendulum system. We also show that the controller's interpretability provides unique capabilities in goal-driven control and physical reasoning for zero-data adaptation.

研究の動機と目的

物体の状態やラベルが入手できない動的シーンにおいて、教師なしの物理的パラメータ推定を可能にすること。
視覚的逆画像処理と微分可能物理エンジンを統合し、物体、状態、システムのダイナミクスを同時に発見すること。
スプリング・マス系や重力系のような相互作用を示す物体を有するシステムにおいて、長期的動画予測性能を向上させること。
視覚に基づくデータ効率的で解釈可能なポリシーを有するモデル予測制御を可能にし、ゼロデータ適応を実現すること。

提案手法

モデルは、視覚的逆画像処理におけるシーン状態の再構築をガイドするため、微分可能物理エンジンをインダクティブバイアスとして用いる。
エンドツーエンド微分可能な推論を用いて、物体の識別子、位置、速度、物理的パラメータ（例：ばね定数、質量）を同時に最適化する。
予測されたシーン状態と物理的パラメータから動画フレームを再構築するニューラルレンダリングヘッドを採用し、自己教師あり学習を可能にする。
微分可能レンダリングと物理シミュレーションを活用して、視覚的および物理的ダイナミクスの両方のコンponentsを介して、動画再構築誤差を逆伝播する。
視覚的整合性と物理的整合性の両方を同時に最適化することで、物体とその物理的性質の分離表現を学習する。
学習された物理モデルを用いて視覚的観測に基づく行動を計画することで、モデル予測制御を実現する。

実験結果

リサーチクエスチョン

RQ1視覚システムは、状態や物体のラベルなしに、動画から物体と物理的パラメータを同時に発見できるか？
RQ2物理的要因を組み込んだ逆画像処理モデルは、複雑な力学系において長期的動画予測にどの程度一般化できるか？
RQ3視覚と微分可能物理エンジンを密に統合することで、モデルベース制御におけるデータ効率がどの程度向上するか？
RQ4解釈可能性のおかげで、学習済みコントローラーはゼロデータ適応とゴール指向の物理的推論を可能にするか？

主な発見

ボール・スプリング系や3体重力系において、従来の教師なし手法よりも顕著に優れた長期的動画予測精度を達成した。
微分可能物理エンジンをインダクティブバイアスとして統合することで、学習シーケンスを超えた安定的かつ物理的に妥当な外挿が可能になった。
ペンドulum系において、限られたデモンストレーションデータでも、ベースラインを上回るデータ効率的で視覚駆動のモデルベース制御を実現した。
コントローラーの解釈可能性のおかげで、再トレーニングなしにゴール指向のタスクにおけるゼロデータ適応が可能となり、物理的推論が可能になった。
教師なしで、生の動画から分離可能な物体の識別子、位置、速度、物理的パラメータを効果的に発見した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。