[論文レビュー] End-to-End Robotic Reinforcement Learning without Reward Engineering
本論文は RAQ および VICE-RAQ を提案し、アクティブバイナリクエリとオフポリシー分類器ベースの報酬を用いて、手で設計された報酬なしにピクセル観測からロボティックスキルを学習する方法を提示する。
The combination of deep neural network models and reinforcement learning algorithms can make it possible to learn policies for robotic behaviors that directly read in raw sensory inputs, such as camera images, effectively subsuming both estimation and control into one model. However, real-world applications of reinforcement learning must specify the goal of the task by means of a manually programmed reward function, which in practice requires either designing the very same perception pipeline that end-to-end reinforcement learning promises to avoid, or else instrumenting the environment with additional sensors to determine if the task has been performed successfully. In this paper, we propose an approach for removing the need for manual engineering of reward specifications by enabling a robot to learn from a modest number of examples of successful outcomes, followed by actively solicited queries, where the robot shows the user a state and asks for a label to determine whether that state represents successful completion of the task. While requesting labels for every single state would amount to asking the user to manually provide the reward signal, our method requires labels for only a tiny fraction of the states seen during training, making it an efficient and practical approach for learning skills without manually engineered rewards. We evaluate our method on real-world robotic manipulation tasks where the observations consist of images viewed by the robot's camera. In our experiments, our method effectively learns to arrange objects, place books, and drape cloth, directly from images and without any manually specified reward functions, and with only 1-4 hours of interaction with the real world.
研究の動機と目的
- 手作業で設計された報酬を用いず、ピクセル観測から実機ロボットでのエンドツーエンドの RL を可能にする。
- 少数の陽性結果の例と2値のアクティブクエリを用いて報酬を定義する。
- 現実世界のロボティクスに実用的なレベルまでデータおよびアノテーションの負担を軽減する。
- 報酬モデルにおける分類器の悪用を緩和しつつ、効率的な学習を可能にする。
提案手法
- 高次元の観測上でゴール分類器を訓練し、対数確率報酬を提供する。
- 高確率状態に対してアクティブクエリを用いてラベル付けし、少数の2値の成功ラベルを収集する。
- 最大エントロピー RL の枠組みで分類器ベースの報酬を用いた Soft Actor-Critic (SAC) を採用する。
- 再生バッファデータを活用して効率を高めるために VICE をオフポリシー学習に拡張する。
- 画像ベースの操作タスクのために、アクティブクエリを VICE に組み合わせて VICE-RAQ を形成する。
実験結果
リサーチクエスチョン
- RQ1手作業で設計された報酬なしに、画像からエンドツーエンドでロボットスキルを学習できるか?
- RQ2陽性例の小さなセットと2値のアクティブクエリが、効果的な報酬を学習するのにどのように十分なのか?
- RQ3アクティブクエリを用いたオフポリシー VICE はデータ効率と実世界での適用性を改善するのか?
- RQ4シミュレーションと現実世界の画像ベース操作タスクで、RAQ および VICE-RAQ はどれほどの性能を発揮するか?
主な発見
- RAQ および VICE-RAQ は、手作業で設計された報酬なしにピクセル観測から効果的に学習を達成する。
- シミュレーションでは、Visual Pusher、Visual Door Opening、Visual Picker などのタスクで他の手法を上回る。
- 現実世界の実験では、布の掛け、本の配置、コースターの上のマグカップの学習を1–4時間の相互作用で実証。
- アクティブな2値クエリ(1回の実行あたり25〜75件)は、全アノテーションと比較して必要なラベリングを大幅に削減する。
- オフポリシー VICE-RAQ はリプレイバッファのデータを効率的に活用しつつ、分類器の悪用を緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。