QUICK REVIEW

[論文レビュー] Scaling data-driven robotics with reward sketching and batch reinforcement learning

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|Sep 26, 2019

Reinforcement Learning in Robotics参考文献 81被引用数 45

ひとこと要約

この論文は、ヒューマンの好みからタスク報酬を学ぶ報酬スケッチを提案し、大規模に保存されたロボット経験データセットを遡ってラベル付けし、それからオフラインデータを用いたバッチRLポリシーを訓練して、ビジョンを用いた多様な操作タスクを解決する。

ABSTRACT

We present a framework for data-driven robotics that makes use of a large dataset of recorded robot experience and scales to several tasks using learned reward functions. We show how to apply this framework to accomplish three different object manipulation tasks on a real robot platform. Given demonstrations of a task together with task-agnostic recorded experience, we use a special form of human annotation as supervision to learn a reward function, which enables us to deal with real-world tasks where the reward signal cannot be acquired directly. Learned rewards are used in combination with a large dataset of experience from different tasks to learn a robot policy offline using batch RL. We show that using our approach it is possible to train agents to perform a variety of challenging manipulation tasks including stacking rigid objects and handling cloth.

研究の動機と目的

スケーラブルなデータ駆動型ロボティクスを、タスクを横断する大規模な経験データセットの活用によって推進する。
新規タスクのための人間の好みを効率的に収集するための報酬スケッチを導入する。
学習済みタスク報酬で歴史的データを遡ってアノテーションし、オフラインのバッチRLを可能にする。
オフラインデータのみを用いてバッチRLで視覚運動ポリシーを訓練する。
実環境ロボット上で学習ポリシーの堅牢性と一般化を、多様なタスクで実証する。

提案手法

テレ操作、スクリプトポリシー、訓練済みエージェントを NeverEnding Storage (NES) に集約する。
時間ごとの報酬スケッチを人間から引き出し、タスク特異的な報酬モデルを学習する。
新しいタスクのためにNESの全エピソードをラベリングするため、事中ランキング損失を用いてニューラル報酬モデルを訓練する。
ラベル付けされたNESデータに対して分布型D4PG風のバッチ強化学習を適用し、ピクセルから視覚運動ポリシーを学習する。
訓練済みポリシーを実環境ロボットへデプロイし、追加のアノテーションを通じて報酬モデルを反復的に改良する。
任意でオンラインの対話的挿入タスクを実施して、迅速なオンライン改良を示す。

実験結果

リサーチクエスチョン

RQ1報酬スケッチは、多様な操作タスクのタスク報酬を効率的に捕捉できるか。
RQ2多タスクで詳細にアノテーションされたデータを用いて学習したオフライン（バッチ）RLは、実ロボットへどれほど転移できるか。
RQ3NESを、タスク汃義データとタスク特異データの両方を用いることで、ポリシーの一般化と堅牢性を向上させるか。
RQ4異種データから学習する際のロボティクスにおけるバッチRLの分布型価値関数の影響は何か。
RQ5オンラインの人間フィードバックが、産業用途のタスクで効果的なポリシーへとどれほど迅速に収束するか。

主な発見

エージェント	通常	難しい	未知
lift_green	80%	80%	50%
stack_green_on_red	60%	40%	40%

完全にオフラインデータのみで学習したポリシーが実環境のロボットタスクで高い成功率を達成する（例：lift_greenで80%、正常条件下でのstack_green_on_redで60%、など）。
未見の物体や敵対的摂動に対する堅牢性を示す（例：未見の物体のlift/stackタスクでそれぞれ50%/40%の成功率）。
分布型価値関数はこの設定でバッチRLの性能を有意に向上させる。
ランダム_watcherデータ（タスク外探索）の包括は、特に難易度が高い未見シナリオで性能を大幅に高める。
報酬スケッチは大規模データセットの過去ラベリングを可能にし、オンラインロボットとの相互作用なしにスケーラブルな学習を実現する。
迅速なオンライン対話的USB挿入の例では、8時間程度でオンラインアノテーションが控えめでも80%超の成功に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。