QUICK REVIEW

[論文レビュー] Learning from Suboptimal Demonstration via Self-Supervised Reward Regression

Letian Chen, Rohan Paleja|arXiv (Cornell University)|Oct 17, 2020

Reinforcement Learning in Robotics参考文献 38被引用数 31

ひとこと要約

本論文は SSRR、サブ最適デモンストレーションから理想的な報酬を学ぶ IRL フレームワークを提案します。ノイズと性能の関係をシグモイド低域通過フィルタでモデル化し、Noisy-AIRL を用いて堅牢な報酬とポリシーを訓練し、従来の手法を上回ります。

ABSTRACT

Learning from Demonstration (LfD) seeks to democratize robotics by enabling non-roboticist end-users to teach robots to perform a task by providing a human demonstration. However, modern LfD techniques, e.g. inverse reinforcement learning (IRL), assume users provide at least stochastically optimal demonstrations. This assumption fails to hold in most real-world scenarios. Recent attempts to learn from sub-optimal demonstration leverage pairwise rankings and following the Luce-Shepard rule. However, we show these approaches make incorrect assumptions and thus suffer from brittle, degraded performance. We overcome these limitations in developing a novel approach that bootstraps off suboptimal demonstrations to synthesize optimality-parameterized data to train an idealized reward function. We empirically validate we learn an idealized reward function with ~0.95 correlation with ground-truth reward versus ~0.75 for prior work. We can then train policies achieving ~200% improvement over the suboptimal demonstration and ~90% improvement over prior work. We present a physical demonstration of teaching a robot a topspin strike in table tennis that achieves 32% faster returns and 40% more topspin than user demonstration.

研究の動機と目的

人間のサブ最適デモから学習できるように、ロボット学習を普及させる。
既存のサブ最適デモンストレーション手法がなぜ失敗するのかを特定し、堅牢な代替手段を提供する。
潜在的なタスク目標を捉える理想化された報酬関数を推定する。
与えられたサブ最適デモより著しく優れたポリシーを訓練する。
ロボット卓球での現実世界での適用性を示す。

提案手法

サブ最適デモから初期の報酬とポリシーを得るために AIRL を用いる。
学習済みポリシーにノイズを注入して、分析用の合成的でノイズのある軌跡を生成する。
注入されたノイズの関数として学習済みポリシーの性能を、シグモイド（ローパス）カーブを用いて特徴づける。
ノイズ–性能関係をモデル化するために四パラメータのシグモイドを適合させる（Equation 4）。
学習されたノイズ–性能カーブに導かれた軌跡データに回帰して、理想化された報酬関数 R_theta を訓練する（Equation 5）。
AIRL ジェネレータにノイズを注入し、識別子の損失に重要サンプリングを用いることでロバスト性を向上させる Noisy-AIRL を導入する（Equation 6）。

実験結果

リサーチクエスチョン

RQ1IRL 手法はサブオプティマルデモンストレーションのバイアスを受けるのか、崩壊曲線を正確にモデル化できるのか？
RQ2ノイズ誘発の性能低下をシグモイドベースで特徴付けることで、サブ最適データからの報酬回帰が改善されるか？
RQ3自己教師付きのノイズをポリシーに取り入れたデータを活用することで、報酬関数の精度と下流のポリシー性能が向上するか？
RQ4Noisy-AIRL はサブ最適デモンストレーションから学習する際の共変移動困難性に対してロバスト性を高めるか？
RQ5SSR R をシミュレーションおよび実世界のロボットタスクに適用した際の実証的性能向上はどの程度か？

主な発見

SSRR は simulated タスク全般で ground-truth 報酬と約0.94–0.97 の相関を達成し、従来よりも高い（約0.75 の範囲と比較）性能を示す。
Noisy-AIRL は初期報酬推定を改善し、SSRR のためのより高品質な合成データを生み出す。
SSRR の報酬関数で訓練されたポリシーは、サブ最適デモに対して大幅な改善を示す（シミュレーションで平均約163–192%、実世界の卓球タスクでより速いリターン約32%、トップスピン約40%増）。
SSRR と Noisy-AIRL を組み合わせると MuJoCo タスク（HalfCheetah, Hopper, Ant）で D-REX より高い軌跡ランク付け精度を提供する。
D-REX の Luce-Shepard ベースの仮定は、サブ最適デモンストレーション学習に対してむしろ非生産的な帰納バイアスであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。