QUICK REVIEW

[論文レビュー] Align-RUDDER: Learning From Few Demonstrations by Reward Redistribution

Vihang P. Patil, Markus Hofmarcher|arXiv (Cornell University)|Jan 1, 2020

Reinforcement Learning in Robotics参考文献 83被引用数 8

ひとこと要約

Align-RUDDERは、複数配列アラインメント（MSA）を用いて報酬再配分のためのプロファイルモデルを構築することで、少数の高報酬デモからの学習を加速する強化学習手法を提案する。従来のLSTMのような深層ネットワークに依存する手法とは異なり、バイオインフォマティクスに由来するアラインメント手法を用いて部分的タスクのマイルストーンを同定し、サンプル効率を著しく向上させ、最小限のデモでマインクラフトにおけるダイヤモンド採掘に成功する。

ABSTRACT

Reinforcement learning algorithms require many samples when solving complex hierarchical tasks with sparse and delayed rewards. For such complex tasks, the recently proposed RUDDER uses reward redistribution to leverage steps in the Q-function that are associated with accomplishing sub-tasks. However, often only few episodes with high rewards are available as demonstrations since current exploration strategies cannot discover them in reasonable time. In this work, we introduce Align-RUDDER, which utilizes a profile model for reward redistribution that is obtained from multiple sequence alignment of demonstrations. Consequently, Align-RUDDER employs reward redistribution effectively and, thereby, drastically improves learning on few demonstrations. Align-RUDDER outperforms competitors on complex artificial tasks with delayed rewards and few demonstrations. On the Minecraft ObtainDiamond task, Align-RUDDER is able to mine a diamond, though not frequently. Code is available at https://github.com/ml-jku/align-rudder. YouTube: https://youtu.be/HO-_8ZUl-UY

研究の動機と目的

報酬がスパースかつ遅延する環境では探索が不十分であるため、少数の高報酬デモしか入手できない状況における強化学習のサンプル非効率性の課題に対処すること。
RUDDERで使用されるLSTMのような深層学習モデルが、効果的な学習のためには大規模なデモセットを必要とすることの制限を克服すること。
特に複数配列アラインメント（MSA）を含むバイオインフォマティクスの技術を応用し、最小限のデモから部分的タスク構造を捉えるプロファイルモデルを構築すること。
アラインされたデモシーケンスを用いて部分的タスクの境界を同定することで階層的強化学習を可能にし、効率的な信用配分と報酬形態化を実現すること。

提案手法

高報酬デモ軌跡の複数配列アラインメント（MSA）を用いて、共通する部分的タスクシーケンスを捉えるプロファイルモデルを構築する。
RUDDERのLSTMベースの報酬再配分モデルを、MSAから導出されたプロファイルモデルに置き換え、少数のデモからのQ関数ステップ推定を実現する。
プロファイルモデルが期待リターンに顕著な変化を予測する状態行動ペアを特定することで報酬再配分を実施し、部分的タスク完了を示唆する。
再配分された報酬を、PPOや行動クラウンティングのファインチューニングなどの下流の強化学習アルゴリズムの内部的シグナルとして使用する。
アラインされた部分軌跡上で行動学習（BC）を用いて部分的タスクエージェントを訓練した後、再配分された報酬を用いてPPOによるファインチューニングを実施する。
最終エージェントをMineRL環境にデプロイし、定期的な推論とターゲットアイテム収集に基づくモデルチェックポイント選択による性能評価を実施する。

実験結果

リサーチクエスチョン

RQ1少数のデモから複数配列アラインメントを用いて得られるプロファイルモデルが、報酬がスパースな複雑な階層的タスクにおいて部分的タスクの境界を効果的に同定できるか？
RQ2RUDDERのLSTMベースの報酬再配分をMSAベースのプロファイルモデルに置き換えることで、少数ショットの模倣学習および強化学習におけるサンプル効率が向上するか？
RQ3MSAによる報酬再配分は、ダイヤモンドの入手など報酬が遅延しスパースなタスクにおいて、学習速度と最終的なパフォーマンスをどの程度向上できるか？
RQ4少数の高報酬デモしか利用できない状況において、Align-RUDDERはベースライン手法やRUDDERと比較して、学習効率および最終パフォーマンスで優れているか？

主な発見

Align-RUDDERは、標準的な探索では達成できないマインクラフトのMineRL ObtainDiamond環境で、わずかな高報酬デモのみを用いてダイヤモンドの採掘に成功した。
報酬がスパースかつ遅延する人工的な階層的タスクにおいて、競合するアルゴリズムを上回り、収束が早く、サンプル効率が高いことが実証された。
MSAベースのプロファイルモデルは、限定的なデモからでも部分的タスクのマイルストーンを効果的に同定でき、正確な報酬再配分と信用配分の改善を実現した。
アラインされた部分軌跡上で行動学習（BC）を実施し、その後再配分された報酬を用いてPPOによるファインチューニングを実施することで、強固な方策学習が達成され、最終エージェントはターゲットアイテム収集で高いパフォーマンスを発揮した。
最終エージェントの訓練にかかる計算コストは、チャレンジの制約内に収まっており（1つのGPUノードで4日間）、実用的であることが示された。
実験のデモコードで1回の実験あたり10種類のシードしか使用しなかったにもかかわらず、顕著なパフォーマンス向上が得られたことから、最小限のデータから強力な一般化が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。