QUICK REVIEW

[論文レビュー] Reward Constrained Policy Optimization

Chen Tessler, Daniel J. Mankowitz|arXiv (Cornell University)|May 28, 2018

Reinforcement Learning in Robotics参考文献 29被引用数 235

ひとこと要約

RCPO は、割引ペナルティ信号を用いてポリシーを実現可能性へと導く多タイムスケール制約付きポリシー最適化を導入し、理論的収束保証と従来手法よりも改善された実証性能を提供します。

ABSTRACT

Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in unwanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work we present a novel multi-timescale approach for constrained policy optimization, called `Reward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.

研究の動機と目的

制約付き強化学習を動機づけ、望ましくない報酬の悪用を防ぎ、制約の満たしを確保する。
ペナルティ係数の事前調整を必要とせず、報酬信号に制約を組み込むペナルティベースのアプローチを提案する。
mild assumptionsの下でRCPOの収束保証を確立する。
grid-world および Mujoco ロボティクス領域で RCPO の実証的利点を示す。
RCPO を報酬整形および従来の制約付き最適化ベースラインと比較する。

提案手法

制約付き MDP（CMDP）を定式化し、ラグランジュ緩和を適用して二タイムスケール更新を作成する：高速なポリシーパラメータ θ、遅いペナルティ λ。
Cγ を介して割引 guided penalty を導入し、 penalized rewards r̂(λ, s, a) = r(s,a) − λ c(s,a) を定義する。
パラメータ推定は、対数尤度のトリックと TD ベースのクリティックを用いたポリシー勾配で行い、 penalized value V̂π(λ, s) を用いる。
三タイムスケールの RCPO を運用：高速な actor-critic 更新、中間のポリシー最適化、JＣπ ≤ α を満たすよう λ の遅い更新。
導 guiding penalty を実際の制約と関係づける仮定の下で、ほぼほぼ確実収束を示す（定理 2）。
RCPO のアルゴリズムテンプレート（Algorithm 1）と RCPO Advantage Actor-Critic 変種（Appendix A）を提供する。

実験結果

リサーチクエスチョン

RQ1ペナルティベースで報酬をガイドするアプローチは、CMDP の一般化制約を手動でのペナルティ調整なしに満たすことができるか？
RQ2RCPO は実践的に制約を満たすポリシーへ収束し、サンプル効率はどうか？
RQ3 RCPO は離散領域（グリッドワールド）と連続領域（Mujoco）で、報酬整形および従来の制約法と比較してどうか？
RQ4 割引ガイドペナルティの使用は、制約付き強化学習の安定性と収束にどのような影響を及ぼすか？
RQ5 RCPO は実践的に割引和と平均値制約の両方を扱えるか？

主な発見

Domain	Torque (λ=0)	Reward (λ=0)	Torque (λ=0.00001)	Reward (λ=0.00001)	Torque (λ=0.1)	Reward (λ=0.1)	Torque (λ=100)	Reward (λ=100)	RCPO Torque	RCPO Reward
Swimmer-v2	30.4%	94.4	37.4%	65.1	32.8%	16.5	2.4%	11.7	24%	72.7
Walker2d-v2	?	3364.1	28.4%	3198.9	13.6%	823.5	17.8%	266.1	25.2%	591.6
Hopper-v2	31.5%	2610.7	31.4%	1768.2	15.7%	865.9	14.3%	329.4	26%	1138.5
Humanoid-v2	28.6%	617.1	28.1%	617.1	28.5%	1151.8	30.5%	119.4	24.3%	606.1
HalfCheetah-v2	37.8%	2989.5	40.8%	2462.3	13.87%	-0.4	13.9%	-2.4	26.7%	1547.1
Ant-v2	36.7%	1313.1	35.9%	1233.5	16.6%	1012.2	16.7%	957.2	15.2%	1031.5

RCPO は mild assumptions の下で制約充足固定点へほぼ surely な収束を達成する（定理 2）。
実験では、RCPO はグリッドワールドの Mars Rover 領域で、従来の制約付き最適化ベースラインよりも高速な収束と低分散で制約を満たすポリシーを達成。
Mujoco ロボティクスのタスクでは、RCPO は実現可能（またはほぼ実現可能）なトルク制約を持つポリシーを見つけ、複数の環境（Swimmer、Walker2d、Hopper、Humanoid、HalfCheetah、Ant）で固定 λ の報酬整形アプローチより一般的に優れている。
定常的なペナルティ法（報酬整形）は領域特有の調整を要し、訓練が進むにつれてサブ最適または不安定なポリシーにつながる可能性があるのに対し、RCPO は λ を適応させて報酬と制約の満足をバランスする。
RCPO はサンプル効率と安定性の改善を示し、手動のペナルティ係数調整の必要性を回避し、再帰ベルマン方程式を満たす制約を超える一般的な制約にも対応する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。