Skip to main content
QUICK REVIEW

[論文レビュー] KTO: Model Alignment as Prospect Theoretic Optimization

Kawin Ethayarajh, Winnie Xu|arXiv (Cornell University)|Feb 2, 2024
Global trade and economics被引用数 21
ひとこと要約

KTOはKahneman-Tversky Optimizationを導入し、Binary desirability signalsを用いて人間の効用に触発された目的を直接最適化するHALOベースの損失で、1B–30Bモデルに対してDPOと同等以上を達成し、好みデータを必要としない。

ABSTRACT

Kahneman & Tversky's $ extit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner (1992); for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases -- the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them belonging to a family of loss functions that we call $ extit{human-aware losses}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach KTO, and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B, despite only learning from a binary signal of whether an output is desirable. More broadly, our work suggests that there is no one HALO that is universally superior; the best loss depends on the inductive biases most appropriate for a given setting, an oft-overlooked consideration.

研究の動機と目的

  • 既存の好みベースのアラインメント損失がなぜ人間の偏見(HALOs)を暗黙的にエンコードしているのかを動機づける。
  • Kahneman-Tversky Optimization (KTO)を、二値信号を用いて生成ユーティリティを直接最大化するHALOとして提案する。
  • KTOの性能がモデル規模(1B–30B)およびデータレジーム全体でDPOと同等または優れていることを示す。
  • KTOが不均衡データや非好みデータで動作し得ることを示し、コストの高い人間の好みに対する依存を削減する。

提案手法

  • HALOsを人間を意識した損失として定式化し、損失回避とゲインの凹性をモデル化するKahneman-Tversky value functionを用いる。
  • r_KTO(x,y)=β log(πθ(y|x)/πref(y|x))とKLベースのリファレンス項で探索とリファレンス方針への近さをバランスさせるKTO損失を導出する。
  • 従来の好み尤度を、KL正則化フレームワークでリファレンスポイントz_refを組み込んだロジスティックなv_KTOを用いるユーティリティベースの目的に置換する。
  • Binary desirability signals(desirable/undesirable)でKTOを実装し、訓練を安定化させるためにバッチベースのミスマッチ入力でKL項を推定する。
  • β、λ_D、λ_Uおよびデータ構成(desirable vs undesirable)が学習とデータ効率に与える影響を示す。
Figure 1: The traditional pipeline for LLM alignment starts with supervised finetuning, followed by fitting the LLM to paired preference data using a method such as RLHF or DPO. However, the paired preferences that existing approaches need are hard-to-get. Kahneman-Tversky Optimization (KTO) only ne
Figure 1: The traditional pipeline for LLM alignment starts with supervised finetuning, followed by fitting the LLM to paired preference data using a method such as RLHF or DPO. However, the paired preferences that existing approaches need are hard-to-get. Kahneman-Tversky Optimization (KTO) only ne

実験結果

リサーチクエスチョン

  • RQ1KTOはbinary desirability signalsのみを用いて、1B〜30Bパラメータのモデル規模間でDPOの性能に匹敵するか、それを超えるか?
  • RQ2SFT+KTOとSFT+DPOの比較でKTOはどう機能するか、監視付き微調整なしでKTOは成功できるか?
  • RQ3KTOは不均衡データに頑健かつ非好みの二値信号を効果的に活用できるか?
  • RQ4直接的なユーティリティ最大化によるKTOは、ノイズのあるまたは非推移的なフィードバック下で、好みベースの方法に対して理論的・経験的な利点を提供するか?
  • RQ5KTOがDPOを上回るまたは同等となる実用的なデータ・ハイパーパラメータ条件は何か?

主な発見

MethodWinrate vs. SFT Target (Mistral-7B OpenAssistant)Winrate vs. SFT Target (Mistral-7B OpenAssistant)
Mistral-7B (unaligned)0.525 ± 0.037-
Mistral-7B + DPO0.600 ± 0.037-
Mistral-7B + KTO (all y per x)0.652 ± 0.036-
Mistral-7B + KTO (one y per x)0.631 ± 0.036-
Mistral-7B-Instruct0.621 ± 0.031-
  • KTOは1B〜30Bパラメータのモデル規模でDPOと同等以上を達成する。
  • KTOは極端なデータ不均衡にも対応でき、望ましい例を最大90%削減してもDPOに匹敵する。
  • KTOはAlignment前の特定のLlamaモデルで、監督付き微調整(SFT)なしでもDPOと同等以上を時に達成できる。
  • dummy報酬を用いたオフラインPPOは、最大のLlama-30Bを除き大半のモデルでDPOと同等の性能を発揮できる。
  • Binary desirability signalsを用いて訓練されたKTOは、MMLU、GSM8K、HumanEval、BBHを含む複数のベンチマークで強力な性能を示し、時には非好み信号データからでもSFTターゲットを上回ることがある。
  • KTOの理論解析は、KTOを介して人間のユーティリティを最大化することが、オープンエンドな設定で好み尤度を超える理由を説明する。
Figure 2: The utility that a human gets from the outcome of a random variable, as imputed by the value function implicit in HALOs. Notice that the imputed functions share properties such as loss aversion with the human value functions that Kahneman & Tversky empirically derived ( 1992 ) .
Figure 2: The utility that a human gets from the outcome of a random variable, as imputed by the value function implicit in HALOs. Notice that the imputed functions share properties such as loss aversion with the human value functions that Kahneman & Tversky empirically derived ( 1992 ) .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。