[논문 리뷰] Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism
이 논문은 오프라인 RLHF 방법인 DCPPO를 개발하여 인간 행동을 학습하고, 동적 이산 선택에서 근본적인 보상을 복원하며, 단일 정책 커버리지하에서 이론적 보장을 가진 거의 최적 정책을 얻기 위해 비관적 가치 반복을 수행한다.
In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human's underlying reward and the MDP's optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality's dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model.
연구 동기 및 목표
- 모델링하고 오프라인 인간 피드백으로 인간의 보상과 MDP의 최적 정책을 식별하고 학습한다.
- Dynamic Discrete Choice (DDC)를 활용하여 제한된 합리성과 미래 지향적 인간 의사결정을 포착한다.
- 데이터가 한정된 상황에서 인간 행동을 복원하고 보상을 추정하며 거의 최적 정책을 계산하기 위한 3단계 알고리즘을 개발한다.
- 단일 정책 커버리지 하에서 DDC로 오프정책 RLHF에 대한 유한 샘플 이론적 보장을 제공한다.
제안 방법
- Stage 1: 인간 행동 정책과 상태-행동 가치 함수를 최대우도 추정(MLE)을 통해 함수 클래스 내에서 추정한다.
- Stage 2: 학습된 가치 함수와 함께 벨만 평균 제곱 오차를 최소화하여 인간 보상을 회복하고, 불확실성 인식 패널티를 부여한다.
- Stage 3: 학습된 보상을 대입하고 비관적 가치 이터레이션을 수행하여 거의 최적 정책을 얻고 분포 변화에 대한 강건성을 확보한다.
실험 결과
연구 질문
- RQ1동적 이산 선택 모형에서 직접 보상에 접근하지 않고도 오프라인 인간 선택으로 최적 정책과 근본 보상을 학습할 수 있는가?
- RQ2제한된 데이터에서 일반적인 모델 클래스하에서 인간 정책과 보상의 추정 오차를 얼마나 잘 한정할 수 있는가?
- RQ3보상 추정 오차를 가진 비관성을 도입하면 단일 정책 커버리지 하에서 근소한 최적성 보장이 주어지는가?
주요 결과
- DCPPO는 작은 커버링 수 증가 가정 아래 인간 정책과 가치 함수의 오차를 O(1/n)로 복원한다.
- 보상은 타원형 포텐셜 항(elliptical potential term)과 보상 추정으로 인한 추가 오차 항이 포함된 경계(bound)로 추정될 수 있다.
- 비관적 가치 이터레이션은 학습된 보상을 사용하여 단일 정책 커버리지에서 O(n^{-1/2})의 부분 최적성 차이를 달성하며, 이는 선형 MDP에서 일반적인 비관적 오프라인 RL 결과와 비교 가능성을 유지한다.
- RKHS 설정에서 이 프레임워크는 커널 기반 방법으로 확장되어 불확실성 추정과 함께 유한 샘플 보장을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.