[論文レビュー] Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism
この論文は DCPPO を開発します。オフライン RLHF 法で、人間の行動を学習し、動的離散選択から基底の報酬を回復し、単一ポリシーのカバレッジ下で理論保証を持つほぼ最適なポリシーを得るために悲観的な価値反復を行います。
In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human's underlying reward and the MDP's optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality's dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model.
研究の動機と目的
- オフラインの人間のフィードバックからモデル化・学習を行い、人間の報酬とMDPの最適なポリシーを特定する。
- 有限合理性と前向きな人間の意思決定を捉えるために Dynamic Discrete Choice (DDC) を活用する。
- 限られたデータの下で、人間の行動を回復し、報酬を推定し、ほぼ最適なポリシーを計算する三段階のアルゴリズムを開発する。
- 単一ポリシーのカバレッジの下で、DDC を用いたオフポリシー RLHF に対する有限サンプル理論保証を提供する。
提案手法
- Stage 1: 認識可能な関数クラス内で最大尤度推定 (MLE) により人間の行動ポリシーと状態-行動価値関数を推定する。
- Stage 2: 学習済みの価値関数を用いてBellman平均二乗誤差を最小化し、人間の報酬を回復する。不確実性を考慮したペナルティを導入。
- Stage 3: 学習済みの報酬を代入し、悲観的価値反復を実行してほぼ最適なポリシーを得る。分布シフトに対するロバスト性を確保。
実験結果
リサーチクエスチョン
- RQ1直接報酬にアクセスせずに、動的離散選択モデルの下でオフラインの人間の選択から最適なポリシーと基礎報酬を学べるか?
- RQ2限られたデータで一般的なモデルクラスに対して、人間のポリシーと報酬の推定誤差をどれだけ良く境界づけられるか?
- RQ3報酬推定誤差とともに悲観性を取り入れることで、単一ポリシーのカバレッジ下で証明可能なサブ最適性保証が得られるか?
主な発見
- DCPPO は、小さなカバリング数仮定の下で、人間のポリシーと価値関数を O(1/n) の誤差率で回復します。
- 報酬は、楕円ポテンシャル項と報酬推定による追加の誤差項にスケールする界で推定可能です。
- 悲観的価値反復は、学習済み報酬での線形MDPにおいて単一ポリシーのカバレッジ下でサブ最適性ギャップを O(n^{-1/2}) に達成し、従来の悲観的オフライン RL の結果と比較可能性を維持します。
- RKHS 設定では、フレームワークはカーネルベースの手法へ拡張され、不確実性評価を備え、有限サンプル保証を維持します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。