[論文レビュー] DART: Noise Injection for Robust Imitation Learning
DART は模倣学習における共変量シフトを緩和するために監督者のデモンストレーションに最適化されたノイズを注入し、DAggerと同等の性能を達成しつつ、より効率的で人間にとって安全です。
One approach to Imitation Learning is Behavior Cloning, in which a robot observes a supervisor and infers a control policy. A known problem with this "off-policy" approach is that the robot's errors compound when drifting away from the supervisor's demonstrations. On-policy, techniques alleviate this by iteratively collecting corrective actions for the current robot policy. However, these techniques can be tedious for human supervisors, add significant computation burden, and may visit dangerous states during training. We propose an off-policy approach that injects noise into the supervisor's policy while demonstrating. This forces the supervisor to demonstrate how to recover from errors. We propose a new algorithm, DART (Disturbances for Augmenting Robot Trajectories), that collects demonstrations with injected noise, and optimizes the noise level to approximate the error of the robot's trained policy during data collection. We compare DART with DAgger and Behavior Cloning in two domains: in simulation with an algorithmic supervisor on the MuJoCo tasks (Walker, Humanoid, Hopper, Half-Cheetah) and in physical experiments with human supervisors training a Toyota HSR robot to perform grasping in clutter. For high dimensional tasks like Humanoid, DART can be up to $3x$ faster in computation time and only decreases the supervisor's cumulative reward by $5\%$ during training, whereas DAgger executes policies that have $80\%$ less cumulative reward than the supervisor. On the grasping in clutter task, DART obtains on average a $62\%$ performance increase over Behavior Cloning.
研究の動機と目的
- オフポリシー模倣学習(Behavior Cloning)における共変量シフトに対処する。
- 学習器に修正の機会を露出させるノイズ注入型のオフポリシー手法を提供する。
- DAgger のようなオンポリシー手法と比較して監督者の負担と計算コストを削減する。
- DART の MuJoCo の移動タスクおよび混雑環境での実世界の把持タスクにおける有効性を示す。
提案手法
- デモンストレーション中に監督のポリシーへノイズを注入する DART(Disturbances for Augmenting Robot Trajectories)を導入する。
- 監督のノイズ付きデモンストレーションをロボットの最終ポリシーに合わせるようノイズ最適化を定式化する。
- ノイズ付き監督下でのロボット制御の負の対数尤度を最小化するよう、ノイズ統計を更新する反復手順(Algorithm 1)を導出する。
- 軌道分布間の KL 発散を介して共変量シフトの低減を示す理論的境界を提供する。
- 反復スキーム内でガウスノイズ共分散の閉形式更新を示す。
- アルゴリズム的監督と人間監督の両方を用いて MuJoCo の移動タスクと Toyota HSR の混雑環境での把持タスクを評価する。
実験結果
リサーチクエスチョン
- RQ1DART はオンポリシー手法と同様に共変量シフトを効果的に低減するか?
- RQ2データ収集中の計算時間と監督者の報酬に対して DART はどう影響するか?
- RQ3DART の下で人間監督者はより良いデモンストレーションを作れるか?
- RQ4高次元のロボットタスクにおいて DART は Behavior Cloning と DAgger とどのように比較されるか?
主な発見
- DART は MuJoCo 移動タスク領域全体で DAgger と同等の性能を達成しつつ、計算時間を大幅に削減している(例: Humanoid: 約3倍高速)。
- 訓練中、DART は監督の累積報酬を監督と比較して約5%程度に抑える一方、DAgger は監督より80%以上低い累積報酬の方針を生み出す。
- 人間監督での混雑環境の掴みにおいて、適切なノイズレベルの DART は平均で Behavior Cloning より 62% の性能向上をもたらす。
- 最適化されていない等方ガウスノイズは性能が低く、安全でないポリシーを生み出すことがあり、最適化されたノイズの必要性を強調する。
- DART は高次元タスクで大幅な改善を示し、Behavior Cloning よりもロボットの最終軌道分布をより適切に一致させることで共変量シフトを低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。