QUICK REVIEW

[논문 리뷰] Scaling Laws for Reward Model Overoptimization

Leo Gao, John Schulman|arXiv (Cornell University)|2022. 10. 19.

Reinforcement Learning in Robotics인용 수 35

한 줄 요약

논문은 보상-모델의 과최적화가 RL 및 Best-of-N 최적화 하에서 어떻게 작동하는지 합성 골드 보상을 사용해 RM 크기, 데이터, 정책 크기에 따른 효과를 정량화하는 스케일링 법칙을 경험적으로 도출한다.

ABSTRACT

In reinforcement learning from human feedback, it is common to optimize against a reward model trained to predict human preferences. Because the reward model is an imperfect proxy, optimizing its value too much can hinder ground truth performance, in accordance with Goodhart's law. This effect has been frequently observed, but not carefully measured due to the expense of collecting human preference data. In this work, we use a synthetic setup in which a fixed "gold-standard" reward model plays the role of humans, providing labels used to train a proxy reward model. We study how the gold reward model score changes as we optimize against the proxy reward model using either reinforcement learning or best-of-$n$ sampling. We find that this relationship follows a different functional form depending on the method of optimization, and that in both cases its coefficients scale smoothly with the number of reward model parameters. We also study the effect on this relationship of the size of the reward model dataset, the number of reward model and policy parameters, and the coefficient of the KL penalty added to the reward in the reinforcement learning setup. We explore the implications of these empirical results for theoretical considerations in AI alignment.

연구 동기 및 목표

프록시 보상 모델을 최적화하는 것이 실제 보상(골드 보상)에 어떤 영향을 미치는지 이해한다.
보상-모델 크기, 데이터 및 정책 크기에 따른 과최적화의 스케일링 특성을 규명한다.
과최적화와 효율성 측면에서 강화학습(RL)과 best-of-n 샘플링의 비교를 수행한다.
RLHF에서의 AI 정렬 및 Goodhart의 법칙에 대한 시사점을 탐구한다.
다양한 구성에서 골드 RM 점수에 대한 예측 스케일링 형식을 제공한다.

제안 방법

합성 설정에서 고정 골드 보상 모델을 사용하여 비교에 라벨을 달고 프록시 RM을 학습한다.
PPO 기반 강화학습 또는 best-of-n 샘플링을 사용하여 프록시 보상 모델을 최적화한다.
최적화 진행도를 정량화하기 위해 거리 d = sqrt(KL(pi || pi_init))를 정의하고 d의 스케일링 형식을 도출한다.
BoN과 RL에서 골드 RM 점수 R(d)의 함수 형태를 아래와 같이 피팅한다: R_BoN(d) = d(α_BoN − β_BoN d) 와 R_RL(d) = d(α_RL − β_RL log d).
α, β가 프록시 RM 매개변수, 데이터 크기, 출력 KL 페널티에 따라 어떻게 변화하는지 조사하고 RM 점수의 재보정(recalibration)을 수행한다.

실험 결과

연구 질문

RQ1다양한 방법(BoN vs RL) 하에서 최적화 진행도에 따른 골드 보상 점수가 어떻게 변하는가?
RQ2BoN과 RL의 과최적화의 함수 형태는 무엇이며 경험적 데이터에 얼마나 잘 맞는가?
RQ3RM 크기, RM 데이터 크기, 정책 크기가 스케일링 계수와 피크 골드 점수에 어떤 영향을 미치는가?
RQ4RL에서 KL 페널티가 골드 보상 프런티어 및 프록시-골드 차이에 미치는 영향은 무엇인가?
RQ5이러한 스케일링 법칙이 RLHF 및 AI 정렬 이론(Goodhart 등)에 어떤 함의를 가지는가?

주요 결과

BoN의 경우 골드 보상은 R_BoN(d) = d(α_BoN − β_BoN d)로 스케일링되며, 계수들은 RM 크기와 데이터에 따라 매끄럽게 달라진다.
RL의 경우 골드 보상은 R_RL(d) = d(α_RL − β_RL log d)로 스케일링되며, α_RL은 대략 RM 크기에 독립적이고 β_RL은 RM 속성에 따라 스케일링된다.
강화학습은 KL 거리로 측정될 때 BoN보다 최적화와 과최적화가 더 느린 경향이 있다.
BoN과 RL의 α 및 β 계수는 프록시 RM 매개변수 수와 데이터 수에 따라 매끄럽게 스케일되며 대략 로그 추세를 따른다.
RL의 KL 페널티는 프록시 RM 점수를 증가시키지만 골드 RM 점수 프런티어를 개선하지 않아 이 설정에서 명시적 KL 페널티의 유용성이 제한적임을 시사한다.
더 큰 정책은 과최적화의 양을 크게 증가시키지 않지만 전반적인 골드 성능과 강인성을 향상시키며, 프록시와 골드 점수 간 격차는 정책 크기에 따라 비슷하게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.