[論文レビュー] Offline Reinforcement Learning with Fisher Divergence Critic Regularization
Fisher-BRCは対数ベースの行動ポリシーを使用したクリティックと勾配ペナルティを導入し、Fisher発散正則化を実現することで、より速い収束と安定性の向上を伴うオフラインRLの最先端パフォーマンスを達成します。
Many modern approaches to offline Reinforcement Learning (RL) utilize behavior regularization, typically augmenting a model-free actor critic algorithm with a penalty measuring divergence of the policy from the offline data. In this work, we propose an alternative approach to encouraging the learned policy to stay close to the data, namely parameterizing the critic as the log-behavior-policy, which generated the offline data, plus a state-action value offset term, which can be learned using a neural network. Behavior regularization then corresponds to an appropriate regularizer on the offset term. We propose using a gradient penalty regularizer for the offset term and demonstrate its equivalence to Fisher divergence regularization, suggesting connections to the score matching and generative energy-based model literature. We thus term our resulting algorithm Fisher-BRC (Behavior Regularized Critic). On standard offline RL benchmarks, Fisher-BRC achieves both improved performance and faster convergence over existing state-of-the-art methods.
研究の動機と目的
- オフラインRLにおけるクリティックの正則化器を規制することで、未知の行動の外挿を防ぐ目的。
- Q値を行動ポリシーμとの対数確率項と学習可能なオフセットで結びつけるクリティックのパラメトリゼーションを提案。
- オフセットに対する勾配ペナルティ正則化子を導出し、それがFisher発散正則化と同等となることを示す。
- Fisher-BRCが従来のオフラインRL手法と比較して性能と効率の点で empirical に有利であることを示す。
提案手法
- クリティックを Q(s,a)=Oθ(s,a)+log μ(a|s) とパラメータ化する。ここで μ は行動クローンによって学習される行動ポリシー。
- クリティックを Oθ の勾配ペナルティで正則化する:最小化 J(Oθ+log μ) + λ E_{s,a∼D, a∼πφ(·|s)}[||∇a Oθ(s,a)||^2]。
- Boltzmannポリシー exp(Q)/Z と行動ポリシー μ の間のFisher発散正則化へ勾配ペナルティを結びつけ、明示的な正規化を避ける。
- データへ向けて行動を導くオフセットベースのクリティックを用いてエントロピー正則化を取り入れつつ、データセットを超えた一般化を許容するようにアクターを訓練する。
- Fisher-BRCを BRAC と CQL に関連付け、log-sum-exp ベースの目的関数より計算上の利点がある点を指摘する。
実験結果
リサーチクエスチョン
- RQ1対数ベースの行動ポリシーを用いたクリティックとオフセット勾配正則化は、ロバストなオフライン RL の性能を提供できるか。
- RQ2クリティックのオフセットに対する勾配ペナルティは Fisher発散正則化を実装し、従来の発散 penalized ポリシーより利点を提供するか。
- RQ3Fisher-BRC 手法は標準ベンチマークで最先端のオフラインRLベースラインと比較して収束が速く、安定性が向上するか。
主な発見
| Environment | BC | BRAC-p | BRAC-v | MBOP | CQL (GitHub) | CQL (Ours) | F-BRC (Ours) |
|---|---|---|---|---|---|---|---|
| halfcheetah-random | 30.5 | 23.5 | 28.1 | 6.3±4.0 | 27.1±1.3 | 20.7±0.6 | 33.3±1.3 |
| hopper-random | 11.3 | 11.1 | 12.0 | 10.8±0.3 | 10.6±0.1 | 10.4±0.1 | 11.3±0.2 |
| walker2d-random | 4.1 | 0.8 | 0.5 | 8.1±5.5 | 1.1±2.2 | 10.0±4.6 | 1.5±0.7 |
| halfcheetah-medium | 36.1 | 44.0 | 45.5 | 44.6±0.8 | 40.3±0.3 | 38.9±0.3 | 41.3±0.3 |
| walker2d-medium | 6.6 | 72.7 | 81.3 | 41.0±29.4 | 77.3±3.8 | 69.2±8.3 | 78.8±1.0 |
| hopper-medium | 29.0 | 31.2 | 32.3 | 48.8±26.8 | 42.2±15.5 | 30.5±0.7 | 99.4±0.3 |
| halfcheetah-expert | 107.0 | 3.8 | -1.1 | - | 54.4±45.8 | 103.5±1.3 | 108.4±0.5 |
| hopper-expert | 109.0 | 6.6 | 3.7 | - | 67.7±54.7 | 112.2±0.2 | 112.3±0.1 |
| walker2d-expert | 125.7 | -0.2 | -0.0 | - | 84.7±42.7 | 107.2±3.8 | 103.0±5.0 |
| halfcheetah-medium-expert | 35.8 | 43.8 | 45.3 | 105.9±17.8 | 21.7±6.8 | 58.6±8.7 | 93.3±10.2 |
| walker2d-medium-expert | 11.3 | -0.3 | 0.9 | 70.2±36.2 | 104.0±10.1 | 104.6±10.4 | 105.2±3.9 |
| hopper-medium-expert | 111.9 | 1.1 | 0.8 | 55.1±44.3 | 111.3±2.1 | 112.4±0.2 | 112.4±0.3 |
| halfcheetah-mixed | 38.4 | 45.6 | 45.9 | 42.3±0.9 | 44.9±1.1 | 42.0±1.1 | 43.2±1.5 |
| hopper-mixed | 11.8 | 0.7 | 0.8 | 12.4±5.8 | 31.6±3.6 | 29.0±0.5 | 35.6±1.0 |
| walker2d-mixed | 11.3 | -0.3 | 0.9 | 9.7±5.3 | 16.8±3.1 | 16.5±4.9 | 41.8±7.9 |
- Fisher-BRC は D4RL ベンチマーク全体で最先端レベルに競合する、あるいは一部のベースラインよりも安定した性能を示す。
- 勾配ペナルティは決定的に重要:λ=0 は性能を低下させ、非常に大きな λ はポリシーを過度に制約する。
- Fisher-BRC は gradient steps および wall-clock time の双方で CQL や BRAC よりも収束が速い。
- 中程度およびエキスパートデータセットで特に強い結果を示し、タスク全体でロバスト性を示す。
- CQL に比べ計算負荷を削減する点として、exp/log-sum-exp の高コスト計算を回避している。
- 実証結果は多くのタスクでベースラインと同等またはそれを上回り、収束挙動の改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。