QUICK REVIEW

[論文レビュー] Self-Rewarding Language Models

Weizhe Yuan, Richard Yuanzhe Pang|arXiv (Cornell University)|Jan 18, 2024

Topic Modeling被引用数 9

ひとこと要約

Self-Rewarding Language Models を提案し、指示遵守データを生成・評価する自身のモデルを反復的に訓練する。LLM-as-a-Judge prompts と Direct Preference Optimization を用い、反復を通じて指示遵守と報酬モデリングを改善する。

ABSTRACT

We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While there is much left still to explore, this work opens the door to the possibility of models that can continually improve in both axes.

研究の動機と目的

固定された人間由来の報酬モデルに依存しない、LLMs の訓練信号の動機づけと開発。
1つのモデルが指示の遵守を実行しつつ、自己の訓練データを生成・評価できるようにする。
AIフィードバック訓練と Direct Preference Optimization を通じた反復的改善を実証する。
自己生成報酬が指示品質と報酬モデリングの精度に与える影響を評価する。

提案手法

指示を遵守し、新しい指示遵守データを作成・評価できる two-skill モデルを定義する。
Iterative Direct Preference Optimization (Iterative DPO) を用い、各反復で現在のモデルが生成した AI Feedback (AIFT) でデータを拡張する。
LLM-as-a-Judge prompting を実装し、候補応答に報酬を割り当て、訓練用の勝敗ペアを構築する。
Open Assistant データでファインチューニングされたシードモデルから開始し、複数の自己生成訓練ラウンドを実施する。
head-to-head prompts、AlpacaEval 2.0 leaderboard、MT-Bench、NLP benchmarks を用いて指示遵守と報酬モデリングを評価する。

実験結果

リサーチクエスチョン

RQ1言語モデルは自己生成・自己評価による訓練データで自らの報酬モデリング能力を向上させることができるか。
RQ2反復的自己整合は、シードまたは従来の SFT ベースラインと比較して指示遵守に測定可能な gains を生むか。
RQ3自己報酬訓練は人間の好みとの整合性や外部評価指標にどのような影響を与えるか。
RQ4ベンチマーク全体で自己報酬型 LLM の限界とドメイン特有の長所/短所は何か。

主な発見

反復的な自己報酬訓練は、反復（M1 から M3）で指示遵守の段階的な向上をもたらす。
M1 は SFT ベースラインを上回る基準改善を示し、M2 と M3 は以前の反復およびシード SFT を対頭比較評価で上回る。
AlpacaEval 2.0 で、Iteration 3 (M3) は GPT-4 Turbo に対して 20.44% の勝率を達成し、独自データを持ついくつかのモデルを上回り、この設定で Claude 2、Gemini Pro、GPT-4 0613 を上回る。
報酬モデリングの能力は各反復で向上し、ペアワイズ精度は 65.1%（SFT）から 78.7%（M1）、80.4%（M2）、81.7%（M3）へ上昇。
IFT+EFT の追加は報酬モデルの整合性指標を改善し、人間とのペアワイズ精度を 65.1% から 78.7% へ向上させる。
MT-Bench スコアは反復で改善（全体で 6.85→7.25）、人文学、STEM、ライティング分野でより大きな向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。