[논문 리뷰] Reinforced Self-Training (ReST) for Language Modeling
ReST는 현재 정책으로부터 더 큰 데이터셋을 생성하고, 필터링된 고보상 데이터에 대해 정책을 반복적으로 미세 조정하여 인간의 선호도에 맞추는 성장-배치 오프라인 RLHF 방법으로, 기계 번역 작업에서 시연되었습니다.
Reinforcement learning from human feedback (RLHF) can improve the quality of large language model's (LLM) outputs by aligning them with human preferences. We propose a simple algorithm for aligning LLMs with human preferences inspired by growing batch reinforcement learning (RL), which we call Reinforced Self-Training (ReST). Given an initial LLM policy, ReST produces a dataset by generating samples from the policy, which are then used to improve the LLM policy using offline RL algorithms. ReST is more efficient than typical online RLHF methods because the training dataset is produced offline, which allows data reuse. While ReST is a general approach applicable to all generative learning settings, we focus on its application to machine translation. Our results show that ReST can substantially improve translation quality, as measured by automated metrics and human evaluation on machine translation benchmarks in a compute and sample-efficient manner.
연구 동기 및 목표
- 효율적인 오프라인 학습 프레임워크를 사용하여 LLM 출력의 인간 선호도 정렬을 촉진한다.
- 데이터 생성을 정책 개선과 분리하는 성장-배치 강화 학습 방법을 제안한다.
- ReST가 번역 벤치마크에서 감독 학습 및 온라인 RLHF 베이스라인보다 성능이 우수하다는 것을 입증한다.
- 다양한 오프라인 RL 손실 및 여러 Grow/Improve 단계가 정책 품질에 미치는 영향을 평가한다.
- 정렬 dynamics를 이해하기 위해 보상-모델 프록시와 인간 선호를 비교한다.
제안 방법
- Grow 샘플을 현재 정책에서 생성하여 확장 데이터셋을 만드는 성장-배치 RL 프레임워크를 정의한다.
- Improve 단계에서 인간 선호를 학습한 보상 모델을 사용하여 확장 데이터를 필터링한다.
- 오프라인 RL 목표(예: BC 또는 다른 오프라인 손실)를 사용하여 필터링된 데이터로 정책을 미세 조정한다.
- 연속되는 Improve 단계를 위해 보상 임계치를 증가시키며 반복하여 더 높은 품질의 데이터 하위집합을 얻는다.
- 추론 시 Best-of-N 샘플링을 선택적으로 사용하여 보상 신호를 활용한다.
- 집단 해석을 제공하고 이 분리된 데이터 생성이 데이터 재사용 및 디버깅을 가능하게 하는 이유를 논의한다.
실험 결과
연구 질문
- RQ1현재 정책에서 온라인 RLHF보다 더 효율적으로 인간 선호도와의 정렬을 개선하기 위해 오프라인 데이터를 증가시키는 것이 가능한가?
- RQ2다양한 오프라인 RL 손실이 기계 번역의 ReST 프레임워크에서 어떻게 작동하는가?
- RQ3여러 Grow/Improve 단계가 보상 모델 점수와 인간 선호도에 미치는 영향은 무엇인가?
- RQ4Best-of-N 샘플링이 실제로 ReST의 이익을 증폭시키는가?
- RQ5보상-모델 프록시가 데이터 분포 간의 인간 선호에 일반화되는 정도는 어느 정도인가?
주요 결과
- ReST 변형은 여러 데이터셋에 걸쳐 번역 벤치마크에서 감독 학습 베이스라인을 능가한다.
- 온라인 PPO로의 RL은 보상 메트릭 및 BLEU에서 ReST보다 저조할 수 있으며 온라인 방법의 보상 해킹 위험을 시사한다.
- Grow 증가 임계치를 가진 여러 Improve 단계는 검증 세트에서 평균 보상 점수를 꾸준히 증가시킨다(예: IWSLT 2014 De-En, WMT-2020 Zh-En, Web Domain En-Zh).
- IWSLT 2014 De-En에서 단일 Grow와 더 많은 Improve 단계가 더 높은 보상을 주며; 추가 Grow 단계가 성능을 더 향상시킬 수 있다(예: IWSLT 2014에서 최대 5.3 포인트).
- ReST의 Best-of-N 추론은 보상을 더 향상시키며, 보상 신호에 대해 중간 N이 BC 베이스라인에서 큰 N과 동등한 성능을 보인다.
- 오프라인 손실 중 BC 손실은 보상-모델 점수와 인간 정렬 측면에서 ReST 내에서 가장 강력한 이득을 제공하는 경우가 많다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.