[論文レビュー] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching
FLACは一般化シュレディンガー橋枠組みの中で運動エネルギーの正則化を用いて反復生成ポリシーの最大エントロピー強化学習を再構成し、尤度自由な探索を実現する。
Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.
研究の動機と目的
- 端末の対数密度が取得不能な場合のエントロピーレギュラリゼーションを伴う反復的生成ポリシーの動機づけ。
- ポリシーの確率性を速度場の運動エネルギーで調節する尤度自由な枠組みを提案。
- 高エントロピーな参照を最大化することがGeneralized Schrödinger Bridge問題として表現可能であることを示す。
- 自動的にエネルギーを調整するエネルギー正則化付きアクター critic アルゴリズムを開発。
- 高次元連続制御ベンチマークにおいて競争的な性能を示す。
提案手法
- ポリシー最適化を高エントロピー参照過程に対するGeneralized Schrödinger Bridge問題として定式化。
- 参照経路測度からの乖離の代理指標として速度場の運動エネルギーペナルティを用いる。
- 運動エネルギー項を組み込んだソフトベルマンバックアップを含むエネルギー正則化ポリシー反復を導出。
- 分解可能な事前オフポリシ FLACアルゴリズムを、微分可能な軌跡生成器とクリティックを用いて実装。
- 訓練中にエネルギーペナルティを自動で調整するラグランジュ Dual 機構を導入。
- Actorが運動エネルギーを最小化しつつ価値を最大化するオフポリシーアクタークリティック実装を提供。
実験結果
リサーチクエスチョン
- RQ1FLACは強力なベースラインと比較してサンプル効率と高次元連続制御ベンチマークで性能を向上させるか。
- RQ2運動エネルギー正則化は密度推定なしでポリシーの確率性を効果的に規制できるか。
- RQ3自動エネルギー調整はエ exploration と性能の維持において固定正則化方式より優れているか。
- RQ4Generalized Schrödinger Bridgeの定式化はエントロピー正則化をRLにおける経路空間制約へどのように結びつけるか。
主な発見
- FLACは難易度の高い DMControl および HumanoidBench のタスクで強力なベースラインと比較して競争力があるまたはそれを上回る性能を達成。
- 運動エネルギー正規化器はモード崩壊を防ぎ、高次元タスクで多峰探索を保持。
- 自動ラグランジュ調整は訓練を通じ探索を適応させ、エネルギーマ multiplierには減少→増加のパターンを示す。
- エネルギーに基づく正則化は尤度自由な機構を提供し、明示的な密度推定なしに高エントロピー参照からの偏差を抑制。
- 拡散/流れベースのベースラインと比較して、FLACはアクションあたりの関数評価回数を抑えて同等またはそれ以上の性能を発揮。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。