QUICK REVIEW

[논문 리뷰] Self-Rewarding Language Models

Weizhe Yuan, Richard Yuanzhe Pang|arXiv (Cornell University)|2024. 01. 18.

Topic Modeling인용 수 9

한 줄 요약

본 논문은 Self-Rewarding Language Models를 제안합니다. 이 모델은 자기 자신의 지시 준수 데이터를 생성하고 평가하도록 반복적으로 학습하며, LLM-as-a-Judge 프롬프트와 Direct Preference Optimization을 사용하여 여러 차례의 반복에서 지시 준수 및 보상 모델링의 성능을 향상시킵니다.

ABSTRACT

We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While there is much left still to explore, this work opens the door to the possibility of models that can continually improve in both axes.

연구 동기 및 목표

고정된 인간 유래 보상 모델에 의존하지 않는 LLM 학습 신호를 동기부여하고 개발한다.
단일 모델이 지시 수행과 자체로 데이터 생성/평가를 모두 수행하도록 한다.
AI 피드백 학습과 Direct Preference Optimization를 통해 반복적 개선을 시연한다.
자체 생성 보상이 지시 품질 및 보상 모델링 정확도에 미치는 영향을 평가한다.

제안 방법

지시를 따르고 새로운 지시 준수 데이터를 생성·평가할 수 있는 이중 스킬 모델을 정의한다.
Iterative Direct Preference Optimization (Iterative DPO)을 사용하여 각 반복에서 현재 모델이 생성한 AI 피드백(AIFT)으로 데이터를 보강한다.
LLM-as-a-Judge 프롬프트를 구현하여 후보 응답에 보상을 할당하고 학습을 위한 승패 쌍을 구성한다.
Open Assistant 데이터로 미세조정된 시드 모델에서 시작한 뒤 다수의 자기 생성 학습 라운드를 수행한다.
head-to-head 프롬프트, AlpacaEval 2.0 리더보드, MT-Bench, NLP 벤치마크를 통해 지시 수행 및 보상 모델링을 평가한다.

실험 결과

연구 질문

RQ1자기 생성 및 자기 평가 학습 데이터를 통해 모델이 자체 보상 모델링 능력을 향상시킬 수 있는가?
RQ2반복적 자기 정렬이 시드 또는 전통적인 SFT 기반 기준선에 비해 지시 수행에 유의한 이득을 가져오는가?
RQ3자체 보상이 인간 선호도 및 외부 평가 지표와의 정렬에 어떤 영향을 미치는가?
RQ4자체 보상 LLM의 한계와 벤치마크 전반의 도메인별 강점/약점은 무엇인가?

주요 결과

반복적 자기 보상 학습은 반복에 따라 지시 수행에 점진적 이득을 보여준다(M1 → M3).
M1은 SFT 기준선 대비 기본 개선을 보이고; M2와 M3은 초기 반복을 능가하며 시드 SFT를 능가하는 성능을 보인다(헤드투헤드 평가).
AlpacaEval 2.0에서 Iteration 3(M3)은 GPT-4 Turbo 대비 20.44% 승률을 달성하여 다수의 독점 데이터 모델을 능가하고 Claude 2, Gemini Pro, GPT-4 0613를 이 설정에서 상회한다.
보상 모델링 능력은 각 반복마다 향상되며, 쌍별 정확도는 SFT의 65.1%에서 M1의 78.7%, M2의 80.4%, M3의 81.7%로 상승한다.
IFT+EFT 증강은 보상-모델 정렬 지표를 향상시키며 사람과의 쌍별 정확도를 65.1%에서 78.7%로 증가시킨다.
MT-Bench 점수는 반복에 따라 향상되며(전체 6.85 → 7.25), 인문학, STEM, 작문 카테고리에서 더 큰 폭의 증가를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.