[論文レビュー] Maximum Entropy Exploration Without the Rollouts
要約:本論文は EVE を提案する。EVE はエルゴード的最大エントロピー探索の固有ベクトルベースの手法で、エージェントの rollout に依存せず環境の遷移ダイナミクスからエントロピー最大化ポリシーを計算し、PPI を介して正則化なしの平均報酬目的と結びつける。
Efficient exploration remains a central challenge in reinforcement learning, serving as a useful pretraining objective for data collection, particularly when an external reward function is unavailable. A principled formulation of the exploration problem is to find policies that maximize the entropy of their induced steady-state visitation distribution, thereby encouraging uniform long-run coverage of the state space. Many existing exploration approaches require estimating state visitation frequencies through repeated on-policy rollouts, which can be computationally expensive. In this work, we instead consider an intrinsic average-reward formulation in which the reward is derived from the visitation distribution itself, so that the optimal policy maximizes steady-state entropy. An entropy-regularized version of this objective admits a spectral characterization: the relevant stationary distributions can be computed from the dominant eigenvectors of a problem-dependent transition matrix. This insight leads to a novel algorithm for solving the maximum entropy exploration problem, EVE (EigenVector-based Exploration), which avoids explicit rollouts and distribution estimation, instead computing the solution through iterative updates, similar to a value-based approach. To address the original unregularized objective, we employ a posterior-policy iteration (PPI) approach, which monotonically improves the entropy and converges in value. We prove convergence of EVE under standard assumptions and demonstrate empirically that it efficiently produces policies with high steady-state entropy, achieving competitive exploration performance relative to rollout-based baselines in deterministic grid-world environments.
研究の動機と目的
- ポリシー誘導の定常状態の状態-行動 visitation 分布のエントロピーを最大化する探索を動機づける。
- エントロピー正則化された平均報酬の枠組みを開発し、それを傾斜遷移演算子と関連づける。
- rol ロールアウトを使わずエントロピー最大化ポリシーを計算するための固有ベクトルの固定点更新を導出する。
- 正則化解から posterior policy iteration (PPI) を介して非正則化の最大エントロピー解への道筋を提供する。
- 決定論的なグリッドワールド環境で収束と経験的有効性を示す。
提案手法
- 平均報酬最大エントロピー目的と prior ポリシーおよび逆温度パラメータ beta を用いたエントロピー正則化代替を定義する。
- 遷移、prior、報酬を組み合わせた傾斜行列 P̃ を用いて、左固有ベクトル u と右固有ベクトル v によって最適ポリシーを特徴づける。
- 目標エントロピー率を与える自己整合的報酬 r(s,a) = -log u(s,a)v(s,a) を導出する。
- 前向きと後向きの確率フローを釣り合わせる固定点更新 u: u ← T(u) を導出し、射影計量の下で収束する。
- 正則化なしの目的を扱うため、現在の最適ポリシーへ priors を逐次更新する PPI を適用する。
- EVE 更新の収束を示し、 rollout を用いずエントロピーを推定するための右固有ベクトルのオフポリシー計算について議論する。

実験結果
リサーチクエスチョン
- RQ1傾斜遷移演算子のスペクトル特性を活用して、オンポリシーの rollout なしで最大エントロピー探索を解けるか?
- RQ2傾斜行列の左・右固有ベクトルを用いて定常状態のエントロピーを最大化する自己整合的内的報酬を構築できるか?
- RQ3エントロピー正則化された平均報酬の定式化は、エントロピー最大化ポリシーへの固定点・縮約連鎖写像アプローチを生むか?
- RQ4非正則化の MaxEnt 目的は PPI によって継続的にエントロピーコストを削減する方向で近づけられるか?
- RQ5決定論的なグリッドワールド環境での経験的結果は、 rollout ベースのベンチマークと比較して探索性能が競合するか?
主な発見
- EVE は rollout や visitation 推定を要求せず、傾斜遷移行列の支配的な固有ベクトルからエントロピー最大化ポリシーを計算する。
- 固定点更新 u ← T(u) は beta ≥ 1 のとき射影計量の下で収束性を持つ縮約である。
- 非正則化問題に対しては、PPI アプローチが求められた最適ポリシーへ pri or policy を更新することで最大エントロピー解へ収束する。
- 決定論的なグリッドワールドの実験では、EVE が rollout ベースのベースラインより高い定常状態の状態-行動エントロピーとより速い収束を示した。
- EVE は探索環境でおおむね最大エントロピーに近づき、log|S||A| に近い値を達成しつつ、割引を使わず安定性を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。