[論文レビュー] Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning
本論文では、部分的に最適なコスト・トゥ・ゴーのオラクルを用いてコストを形状化することで、強化学習(RL)と模倣学習(IL)を統合する手法、Truncated HORizon Policy Search(THOR)を提案する。オラクルの正確さに基づいて計画のホライズンを切り詰めることで、純粋なRLやILのベースラインよりも高速で、よりサンプル効率の良い学習が可能となり、不完全な専門家情報でさえも、優れた性能を達成する。
In this paper, we propose to combine imitation and reinforcement learning via the idea of reward shaping using an oracle. We study the effectiveness of the near-optimal cost-to-go oracle on the planning horizon and demonstrate that the cost-to-go oracle shortens the learner's planning horizon as function of its accuracy: a globally optimal oracle can shorten the planning horizon to one, leading to a one-step greedy Markov Decision Process which is much easier to optimize, while an oracle that is far away from the optimality requires planning over a longer horizon to achieve near-optimal performance. Hence our new insight bridges the gap and interpolates between imitation learning and reinforcement learning. Motivated by the above mentioned insights, we propose Truncated HORizon Policy Search (THOR), a method that focuses on searching for policies that maximize the total reshaped reward over a finite planning horizon when the oracle is sub-optimal. We experimentally demonstrate that a gradient-based implementation of THOR can achieve superior performance compared to RL baselines and IL baselines even when the oracle is sub-optimal.
研究の動機と目的
- ILとRLの長所を統合することで、両者のギャップを埋めること。
- 専門家が部分的に最適でない場合でも、その性能に制限されるILの限界を克服すること。
- 専門家のコスト・トゥ・ゴー推定値を活用して学習を加速させるとともに、専門家を上回る性能を達成できる手法を開発すること。
- オラクルの正確さに基づいて計画ホライズンを切り詰めることで、より優れたサンプル効率と性能が得られることを示すこと。
提案手法
- 本手法は、コスト・トゥ・ゴーのオラクル(ˆVe)を用いて、元のMDPのコスト関数をポテンシャルベースの報酬形状化により再形状化する。
- 精度が最適値関数V*と比較して高い場合に、長さkの切り詰めた計画ホライズンを導入し、kはオラクルの正確さに応じて選択される。
- 離散MDPでは、本手法は数学的に専門家より優れたポリシーを保証し、性能ギャップを定量的に評価可能である。
- 実際には勾配ベースのポリシー探索アルゴリズムが使用され、連続的状態空間および行動空間への適用が可能となる。
- 本手法は複雑な関数近似器の使用を可能とし、TRPO-GAEなどの既存のRLアルゴリズムと組み合わせることも可能である。
- オラクル ˆVe は通常、専門家のデモンストレーション上でTD学習を用いて事前学習されるが、オンライン更新も可能である。
実験結果
リサーチクエスチョン
- RQ1コスト・トゥ・ゴーのオラクルの正確さが、ポリシー学習における有効な計画ホライズンにどのように影響するか?
- RQ2ILと組み合わせた切り詰めた計画ホライズンが、サンプル効率と性能向上に寄与するか?
- RQ3部分的に最適なオラクルを用いたコスト形状化により、純粋なILやRLのベースラインを上回るポリシーが達成可能か?
- RQ4不完全なオラクルが存在する状況下で、バイアス、バリアンス、性能のバランスを最適化するための最適な切り詰め長kは何か?
主な発見
- AcrobotやMountain Carにおいて、k > 1 のTHORは、k = 1 のAGGREVATEDよりも顕著に優れた性能を示し、特に平均+標準偏差の観点から、より高いロバスト性と性能を達成している。
- Hopper や Swimmer などのスパarsely-rewarded環境では、THORがホライズンHの約20–30%のkで、TRPO-GAE や AGGREVATED よりも優れた性能を達成した。
- 特にスパースリワード設定において、THORはポリシーの性能のばらつきを低減した。これは、ポリシー勾配推定におけるロールアウト長の短縮に起因する。
- 不完全な ˆVe を用いても、k = H(フルホライズン)のTHORは、依然としてTRPO-GAEを上回る性能を示した。これにより、オラクルによる報酬形状化の利点が裏付けられた。
- 全テスト環境において、THORはTRPO-GAEよりも高速に学習収束を達成した。ホライズンをH = 200やH = 1000に延長した場合でも同様の傾向が観察された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。