[論文レビュー] Reinforcement Learning with Convex Constraints
APPROPOを導入します。任意の凸制約の下で強化学習を可能にする枠組みで、制約充足をブラックウェル流のアプローチ可能性ゲームとしてキャストし、オンライン凸最適化で解く。手法は、スカラー報酬を最適化する任意のRLアルゴリズムと、制約指標に対してノーリグレット学習者をモジュール的に組み合わせ、実現可能性を達成し、実現可能な場合には制約集合への距離を最小化する。
In standard reinforcement learning (RL), a learning agent seeks to optimize the overall reward. However, many key aspects of a desired behavior are more naturally expressed as constraints. For instance, the designer may want to limit the use of unsafe actions, increase the diversity of trajectories to enable exploration, or approximate expert trajectories when rewards are sparse. In this paper, we propose an algorithmic scheme that can handle a wide class of constraints in RL tasks: specifically, any constraints that require expected values of some vector measurements (such as the use of an action) to lie in a convex set. This captures previously studied constraints (such as safety and proximity to an expert), but also enables new classes of constraints (such as diversity). Our approach comes with rigorous theoretical guarantees and only relies on the ability to approximately solve standard RL tasks. As a result, it can be easily adapted to work with any model-free or model-based RL. In our experiments, we show that it matches previous algorithms that enforce safety via constraints, but can also enforce new properties that these algorithms do not incorporate, such as diversity.
研究の動機と目的
- ベクトル値の測定値として表現される学習目標を、単一のスカラー報酬よりも適切に表現することの動機付け(例: 安全性、探索の多様性)。
- RLタスクの長期測定値に対する任意の凸制約を扱う一般的なアルゴリズム的枠組みを開発すること。
- 理論的保証(サブ線的後悔と集合への距離収束)と実装の実践的ガイドラインを提供すること。
提案手法
- 長期測定ベクトルが凸制約集合Cに lying する混合方策を見つける問題として定式化する(実現可能性問題)。
- dist(z(µ), C)を双対錐上の最大値として表現し、ポジティブなゼロ和ゲームを政策プレーヤーと制約プレーヤーの間で得る。
- 制約プレーヤーにはノーリグレットオンライン学習器(OGD)を用い、政策プレーヤーには標準RLをスカラー報酬r = −λ · zとして解くBest-Responseオラクルを用いる。
- APPROPOを、λを反復的に選択し、BESTRESPONSEでπtを解き、ESTでπtのzを推定し、λをCの polar coneに射影したオンライン勾配降下で更新することで実装する。
- 正象限だけでなく一般の凸制約を、極錐Λ = C◦ ∩ Bを用いた投影ベースの更新によって扱う。
- コーンを用いたリフトを介して一般の凸集合へ拡張することで、Cへの距離の近似最小化が達成可能であることを示す。
実験結果
リサーチクエスチョン
- RQ1凸制約を任意に持つRLはapproachabilityへのゲーム理論的還元で解けるのか。
- RQ2ノーリグレット学習器を標準のRLソルバと組み合わせて、ベクトル値制約充足をどのように強制できるのか。
- RQ3APPROPOに対してどのような理論的保証(後悔の境界、制約集合への収束)を確立できるのか。
主な発見
- APPROPOは、長期測定が対象の凸制約集合にサブ線的後悔項まで近似する混合方策を生み出す。
- 実現可能な問題では、dist(z(¯µ), C)はオンライン学習者の後悔と推定誤差に支配される速度で0へ収束する。
- 火星ローバーのグリッドワールド実験では、正象限制約に対してRCPOと同等の性能を示し、RCPOでは不可能な多様性制約を課すことができた。
- このフレームワークは一般的なRL手法(例: アクター-クリティック)と互換性があり、実現可能性問題を解くための正の応答オラクルを活用できる。
- 一般凸集合への拡張では、コニックリフティングはCへの距離の近似最小化を達成可能であることを保証として提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。