[論文レビュー] Imitation Learning via Off-Policy Distribution Matching
この論文は、報酬やオンポリシーのデータに依存せずに、専門家方策と行動方策の状態-行動分布の乖離を直接最小化する、新しいオフポリシー強化学習アルゴリズムであるValueDICEを提案する。分布比推定を完全にオフポリシーな目的関数として再定式化することにより、ValueDICEはサンプル効率が高く安定した学習を可能にし、MuJoCoベンチマークにおいて、DAC や GAIL といった先行手法を上回る最先端の性能を達成する。特に低データ環境下での性能が顕著である。
When performing imitation learning from expert demonstrations, distribution matching is a popular approach, in which one alternates between estimating distribution ratios and then using these ratios as rewards in a standard reinforcement learning (RL) algorithm. Traditionally, estimation of the distribution ratio requires on-policy data, which has caused previous work to either be exorbitantly data-inefficient or alter the original objective in a manner that can drastically change its optimum. In this work, we show how the original distribution ratio estimation objective may be transformed in a principled manner to yield a completely off-policy objective. In addition to the data-efficiency that this provides, we are able to show that this objective also renders the use of a separate RL optimization unnecessary.Rather, an imitation policy may be learned directly from this objective without the use of explicit rewards. We call the resulting algorithm ValueDICE and evaluate it on a suite of popular imitation learning benchmarks, finding that it can achieve state-of-the-art sample efficiency and performance.
研究の動機と目的
- 各方策更新ごとに環境との繰り返し相互作用を要するオンポリシー分布マッチングにおけるサンプル非効率性を解消すること。
- オンポリシーデータを必要としない理論的裏付けのある、オフポリシーな分布比推定の定式化を構築すること。
- 報酬関数の設計を直接行う強化学習最適化ステップを排除し、乖離最小化目的関数から直接方策最適化を可能にすること。
- 統一的で報酬フリーなフレームワークを用いて、低データおよび高データ環境下で強化学習の最先端の性能を達成すること。
提案手法
- 元の分布マッチング目的関数を再定式化し、完全にオフポリシーな目的関数として密度比推定を実現する。
- 報酬関数を用いずに、過去の相互作用データを保持するリプレイバッファ上で学習するクリティックネットワークを用いて、専門家方策と行動方策の状態-行動分布比を推定する。
- 乖離目的関数の勾配を行動方策パラメータに関して直接導出することで、明示的な報酬を必要とせず、エンドツーエンドの方策学習を可能にする。
- 伝統的な強化学習の報酬設計を回避するため、乖離最小化目的関数から直接方策を学習する、簡潔なアルゴリズムであるValueDICEを導入する。
- Q関数に基づく目的関数を採用し、分布比を近似することで、安定的かつ効率的なオフポリシー更新を可能にする。
- リプレイバッファに専門家のデモンストレーションと行動方策のロールアウトデータを併用し、オフポリシーな方法で比推定器を学習する。
実験結果
リサーチクエスチョン
- RQ1元の目的関数が持つ理論的保証を損なわず、強化学習における分布マッチングを完全にオフポリシー化することは可能か?
- RQ2乖離目的関数を直接最適化することで、別個の強化学習最適化ステップを排除できるか?
- RQ3報酬フリーな強化学習アルゴリズムとして、高いサンプル効率で最先端の性能を達成できるか?
- RQ4提案手法のオフポリシー分布マッチングは、オンポリシーおよび先行のオフポリシー強化学習ベースラインと比較して、低データ環境下でどのように性能を発揮するか?
主な発見
- 1つの専門家軌道しか与えられていない状況でも、ValueDICEはすべてのMuJoCo環境でDAC や GAIL を上回り、優れたサンプル効率を示した。
- 低データ環境(1つの専門家軌道)では、ValueDICEがDAC や GAIL よりも高い平均報酬を達成し、GAIL は有意義な進捗を示さなかった。
- 10個の専門家軌道を用いた場合、ValueDICEは高い性能を維持し、ベースラインより速く収束した。一方、行動クラッシフィケーション(BC)も専門家性能を回復した。
- スパarsな専門家データを有する合成リングMDPでは、ValueDICEは状態1と2を巡回するように方策を学習し、専門家状態-行動占有度を正確に再現できた。
- 確率的専門家設定下でも、ValueDICEはトレーニング中に行動方策と専門家状態-行動分布の真のKLダイバージェンスを効果的に最小化した。
- 低データおよび高データ環境の両方で、最先端の性能を達成しており、そのロバストネスと効率性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。