QUICK REVIEW

[論文レビュー] Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons

Banghua Zhu, Jiantao Jiao|arXiv (Cornell University)|Jan 26, 2023

Reinforcement Learning in Robotics被引用数 16

ひとこと要約

この論文は、対比較およびK-wise人間比較からの報酬学習を含むRLHFの理論的枠組みを提供し、MLEが機能しない場合と悲観的MLEが機能する場合を分析し、MDP/IRLへの結果の拡張とサンプル複雑度境界を導入する。

ABSTRACT

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and max-entropy Inverse Reinforcement Learning (IRL), and provide the first sample complexity bound for max-entropy IRL.

研究の動機と目的

pairwise および K-wise 人間フィードバックを用いた RLHF における報酬学習を動機付け、 formalize する。
BTL と PL モデルの下で推定量（MLE および悲観的 MLE）を分析する。
推定誤差と導出ポリシーのサブ最適性について有限サンプル保証を提供する。
K-wise 比較、MDP、IRL への結果の拡張とオフライン強化学習との関連。

提案手法

報酬を r_θ(s,a)=θ^T φ(s,a) という線形関数としてモデリングし、 φ は固定、 θ は束縛されたパラメータ空間にある。
対比較または K-wise 比較からの人間ランキングデータを記述するために Plackett-Luce (PL) および Bradley-Terry-Luce (BTL) モデルを使用する。
Σ_D の下での MLE 推定量の有限サンプル境界を導出し、報酬推定の下限信頼区間を用いて悲観的 MLE の境界を導出する。
MLE は近似最適ポリシーを誘導できない場合があり得る一方で、悲観的 MLE は特定のカバレッジ仮定の下で近似最適なサブ最適性を達成することを証明する。
K-wise 比較へ分析を拡張し、MLE_K および MLE_2 推定量を定式化して対応する境界を導出する。
MDP へ一般化し、max-entropy IRL およびオフライン RL への含意を論じる。

実験結果

リサーチクエスチョン

RQ1対比較または K-wise 比較において、MLE は報酬パラメータを真に正しく回復する条件は何か。
RQ2データセットのカバレッジ仮定の下で、MLE が機能しない場合に悲観的 MLE が近似最適ポリシーを生み出し得るか。
RQ3対比較および K-wise 比較の PL/BTL モデル下での報酬学習のサンプル複雑度境界はどれか。
RQ4K-wise 推定量（MLE_K および MLE_2）は推定誤差と導出ポリシーの品質の点でどのように比較されるか。
RQ5RLHF の報酬学習結果は MDP および max-entropy IRL にどのように拡張され、オフライン RL 手法にどんな含意があるか。

主な発見

BT/L モデルの線形報酬設定下では MLE は真のパラメータへ収束するが、良いポリシーを生み出すとは限らない。
悲観的 MLE は特定のカバレッジ仮定の下で近似最適なポリシー性能を達成できる。
PL の下では真の MLE と分割型（K-wise を pairwise に変換）MLE がともに収束し、真の MLE が漸近的により効率的である。
K-wise PL では MLE_K 推定量が近似最適な推定誤差境界を達成し、悲観主義と組み合わせると SubOpt の境界を良好に得る。
文脈帯域の下でのサブ最適性に対する悲観的 MLE がミニマックス最適であることを下界が示す。
本研究は RLHF を max-entropy IRL と統合し、max-entropy IRL に対する初のサンプル複雑度境界を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。