QUICK REVIEW

[論文レビュー] Learning to Poke by Poking: Experiential Learning of Intuitive Physics

Pulkit Agrawal, Ashvin Nair|arXiv (Cornell University)|Jun 23, 2016

Robot Manipulation and Learning参考文献 31被引用数 130

ひとこと要約

本論文は、生の画像から自己教師付きのつんつんデータを用いて前方–逆方ダイナミクスの共同モデルを訓練し、ロボットが目標配置へと到達するための物体の運動を予測・計画できるようにする。抽象的な物理表現を学ぶことにより、ベースラインより一般化と計画能力が改善される。

ABSTRACT

We investigate an experiential learning paradigm for acquiring an internal model of intuitive physics. Our model is evaluated on a real-world robotic manipulation task that requires displacing objects to target locations by poking. The robot gathered over 400 hours of experience by executing more than 100K pokes on different objects. We propose a novel approach based on deep neural networks for modeling the dynamics of robot's interactions directly from images, by jointly estimating forward and inverse models of dynamics. The inverse model objective provides supervision to construct informative visual features, which the forward model can then predict and in turn regularize the feature space for the inverse model. The interplay between these two objectives creates useful, accurate models that can then be used for multi-step decision making. This formulation has the additional benefit that it is possible to learn forward models in an abstract feature space and thus alleviate the need of predicting pixels. Our experiments show that this joint modeling approach outperforms alternative methods.

研究の動機と目的

ロボットが自己生成の相互作用データから内部的で直感的な物理モデルを学習できるかを調査する。
画像から導かれた抽象的特徴空間で動作する前向き・逆向きダイナミクスモデルを共同で開発する。
学習したモデルを用いて、目標配置へ向けて物体を押し動かすための多段階計画を可能にする。
新奇な物体の形状や質感、ならびに妨害要素がある状況への一般化を実証する。

提案手法

Baxterロボットを用いて16個の物体に対して400時間超の実世界のつんつんデータ（>100Kつんつん）を収集する。"
前後の画像を潜在特徴へ写像するシアミーズCNNを訓練し、次にポークパラメータ（位置、角度、長さ）を予測する逆モデルを学習する。
現在の特徴と行為から次の特徴を予測する前方モデルを同時に学習する。
ポーク出力を離散化して多峰性に対処し、逆クロスエントロピーと特徴空間での前方L1を結合したジョイント損失を用いる。
貪欲プランナーを用いて、目標画像へ物体を動かすためにつんつんを反復的に予測・実行し、blobベースのベースラインモデルと比較する。
前方モデルが前処理として逆モデルを正則化することを2-D長方形のシミュレーションで示し、実ロボットタスクと新奇物体での一般化をテストする。

実験結果

リサーチクエスチョン

RQ1自己生成データから明示的な監督なしで直感的な物理モデルをロボットが獲得できるか？
RQ2前方・逆向きダイナミクスの共同学習は、逆のみまたは blob ベースラインと比べて予測特徴の品質と計画性能を改善するか？
RQ3学習したモデルは、見たことのない物体の形状・質感や長期的なプランが必要なタスクにどれくらい一般化するか？
RQ4データが少ない場合と多い場合で、前方モデルの正則化はどのような役割を果たすか？

主な発見

前方–逆向きダイナミクスの共同学習は、ベースラインよりも物体の姿勢推定精度と計画品質を改善する。
モデルは新奇な形状・質感を持つ物体や、妨害要素を含むタスクにも一般化し、単一のつんつん訓練統計を超える。
前方モデルは逆の特徴空間を正則化し、特に訓練データが限られている場合に長距離の押し動かしタスクで一般化を向上させる。
シミュレーション study は、訓練データが不足している場合（10K–20K）に共同モデルが逆モデルを上回り、10万データで逆モデルに近づくことを示す。
blobベースのベースラインと比較して、逆モデルと共同モデルの両方が、押し動かしタスクの物体幾何をよりよく捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。