QUICK REVIEW

[論文レビュー] Deep Visual Foresight for Planning Robot Motion

Chelsea Finn, Sergey Levine|arXiv (Cornell University)|Oct 3, 2016

Robot Manipulation and Learning参考文献 36被引用数 19

ひとこと要約

本論文は、深層行動条件付き動画予測を用いた自己教師付き手法を提案し、人間によるアノテーションデータ、カメラキャリブレーション、物理シミュレータなしで、実機ロボットが新規の物体を把持せずに操作できるようにする。この手法は、学習済みの視覚的予測モデルを用いたモデル予測制御（MPC）により、ユーザー指定のピクセルを目的位置へ移動させるような行動を計画し、エンドツーエンドの視覚的想像によって未学習の物体に対しても頑健な性能を達成する。

ABSTRACT

A key challenge in scaling up robot learning to many skills and environments is removing the need for human supervision, so that robots can collect their own data and improve their own performance without being limited by the cost of requesting human feedback. Model-based reinforcement learning holds the promise of enabling an agent to learn to predict the effects of its actions, which could provide flexible predictive models for a wide range of tasks and environments, without detailed human supervision. We develop a method for combining deep action-conditioned video prediction models with model-predictive control that uses entirely unlabeled training data. Our approach does not require a calibrated camera, an instrumented training set-up, nor precise sensing and actuation. Our results show that our method enables a real robot to perform nonprehensile manipulation -- pushing objects -- and can handle novel objects not seen during training.

研究の動機と目的

人間の監視なしにロボット学習を新しいタスクや環境にスケーリングする課題に対処すること。
モデル誤差の累積により未学習の物体で失敗する、手作業で設計されたロボットパイプラインの限界を克服すること。
ラベルなしの動画データを自律的に収集したのみで、実機での操作を可能にすること。
トレーニング時に見つけていない新しい物体に対しても一般化できる手法を開発すること。3Dモデルや深度センシングを必要としない。
学習済みの視覚的予測モデルが、リアルタイムで効果的で連続的な運動計画を可能にすることを実証すること。

提案手法

野生のロボットが収集したラベルなしの動画データを用いて、畳み込みLSTMベースの動画予測モデルを学習する。
モーターコマンドの系列を条件として、将来的な画像フレームとピクセルフローを予測する動画予測モデルを設計する。
予測モデルの確率的推論を用いて、行動計画のためのモデル予測制御（MPC）を実行する。
タスクの目的を、テスト時に特定のピクセル（またはピクセル群）を希望のゴール位置へ移動させることとして定義する。
リアルタイムの観測を用いて行動を継続的に再計画することで、予測誤差のフィードバック制御と是正を可能にする。
予測された画像系列において、望ましいピクセル移動を達成する確率を最大化するように行動系列を最適化する。

実験結果

リサーチクエスチョン

RQ1自己教師学習で学習された深層視覚的予測モデルは、人間による報酬ラベルや物体ラベルなしで、効果的なロボット運動計画を可能にするか？
RQ2このようなモデルは、トレーニング時に見つけていない新しい物体に対して、非把持的プッシュタスクでどの程度一般化できるか？
RQ3幾何的ルールや既知のカメラキャリブレーションに依存するヒューリスティックベースラインと比較して、本手法はどの程度の性能を示すか？
RQ4特に自己遮蔽や物体の質量・接触ダイナミクスの不正確な予測に関する、本手法の失敗モードは何か？
RQ5確率的動画予測とMPCの統合は、非構造的環境でも頑健でリアルタイムの制御を可能にするか？

主な発見

本手法により、トレーニング時に見つけていない新しい物体に対して、実機ロボットが非把持的プッシュタスクを実行でき、トレーニング分布を超えた一般化を示した。
深度センシングや3Dモデルを必要としないにもかかわらず、幾何的ヒューリスティックベースラインやカメラキャリブレーションを必要とする手法を上回る性能を示した。
失敗事例は主に自己遮蔽（例：ロボットアームが物体を遮る）および物体の質量や接触ダイナミクスの不正確な予測に起因する。
未学習の物体に対しても、ピクセルフローと接触効果の予測により、ターゲットピクセルをゴール位置へ移動させる行動を効果的に計画できた。
予測ホライズンが短く、現在の動画予測モデルが通常数フレーム先しか予測できないことから、性能が制限されている。
標準のGPU上で計算が可能であるため、自己完結型ロボットシステムへの実用的導入の可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。