Skip to main content
QUICK REVIEW

[論文レビュー] Triplets Better Than Pairs: Towards Stable and Effective Self-Play Fine-Tuning for LLMs

Yibo Wang, Hai-Long Sun|arXiv (Cornell University)|Jan 13, 2026
Topic Modeling被引用数 0
ひとこと要約

この論文は Triplet-based Self-Play Fine-Tuning (T-SPIN) を提案し、歴史的・原型的(プロト・シンセティック)トリプレットとエントロピー制約を導入して LLM の自己-play 微調整を安定化させ、限定された注釈データで強い結果を達成します。

ABSTRACT

Recently, self-play fine-tuning (SPIN) has been proposed to adapt large language models to downstream applications with scarce expert-annotated data, by iteratively generating synthetic responses from the model itself. However, SPIN is designed to optimize the current reward advantages of annotated responses over synthetic responses at hand, which may gradually vanish during iterations, leading to unstable optimization. Moreover, the utilization of reference policy induces a misalignment issue between the reward formulation for training and the metric for generation. To address these limitations, we propose a novel Triplet-based Self-Play fIne-tuNing (T-SPIN) method that integrates two key designs. First, beyond current advantages, T-SPIN additionally incorporates historical advantages between iteratively generated responses and proto-synthetic responses produced by the initial policy. Even if the current advantages diminish, historical advantages remain effective, stabilizing the overall optimization. Second, T-SPIN introduces the entropy constraint into the self-play framework, which is theoretically justified to support reference-free fine-tuning, eliminating the training-generation discrepancy. Empirical results on various tasks demonstrate not only the superior performance of T-SPIN over SPIN, but also its stable evolution during iterations. Remarkably, compared to supervised fine-tuning, T-SPIN achieves comparable or even better performance with only 25% samples, highlighting its effectiveness when faced with scarce annotated data.

研究の動機と目的

  • LLMs に対する既存の自己対戦微調整(SPIN)の不安定さとミスアラインメントに対処する。
  • 歴史的およびプロト・シンセティックなサンプルを活用するトライレット入力フレームワークを提案する。
  • トレーニングと生成を整合させるエントロピー制約付きの、参照なしの学習目的を導入する。

提案手法

  • 実データ(注釈付き)、合成データ、初期ポリシーからのプロト・シンセティックを含むトリプレット入力を導入して最適化を安定化させる。
  • 主ポリシーと対戦者の更新方式を採用し、現在と過去の利点を用いたトリプレットから学習する。
  • SPIN の参照ポリシー報酬を、生成と整合する信頼度ベースの損失に置き換える(r(z|x) = α log πθ(z|x))。
  • 学習可能な信頼度 c(x,y) を用いた IPM に触発した目的と、c のソフトマックスに還元される閉形式の対戦ポリシーを利用する。
  • 参照依存のトレーニング信号を使わずに、現在の利点と過去の利点を統合したエンドツーエンド損失 L_T-SPIN(θ) を式(7) のように定義する。
  • 主ポリシーと対戦者の交互最適化を詳述するアルゴリズム1 を提供する。
Figure 1 : Comparisons of three strategies: (a) supervised fine-tuning requires large amounts of annotated data to train $\pi_{\theta}$ ; (b) self-play fine-tuning operates with limited annotated data and iteratively generated samples, and employs the previous policy $\pi_{\theta_{t}}$ as a referenc
Figure 1 : Comparisons of three strategies: (a) supervised fine-tuning requires large amounts of annotated data to train $\pi_{\theta}$ ; (b) self-play fine-tuning operates with limited annotated data and iteratively generated samples, and employs the previous policy $\pi_{\theta_{t}}$ as a referenc

実験結果

リサーチクエスチョン

  • RQ1トリプレット入力(注釈付き、合成、プロト・シンセティック)を組み込むと、自己対戦微調整の安定性と性能はどう変化するか。
  • RQ2参照ポリシーを排除し、エントロピー制約付きの対戦者を導入すると、トレーニング報酬と生成との整合性が改善されるか。
  • RQ3歴史的な利点が反復微調整の収束に与える影響は何か。
  • RQ4限られた注釈データの下で、T-SPIN は SPIN や SFT と比べて多様なタスクでどの程度高性能か。

主な発見

  • T-SPIN は Zephyr-7B において SPIN より性能が向上し、反復の安定的な推移を示す。
  • データ全量の SFT と比較して、注釈付きデータ50k でも平均的に同等かそれ以上の結果を達成する。
  • T-SPIN はトレーニング報酬を生成指標と整合させ、SPIN に見られたミスアラインメントを抑制する。
  • 注釈データの25% のみで、提示タスクにおいて監視付き微調整(full data)と同等かそれ以上の性能を実現する。
  • Ultrachat200k からの 50k 注釈データを用いた Zephyr-7B および Mistral-7B の実験で、特に数学・指示順守タスクで顕著な改善が見られた。
  • T-SPIN は複数回の反復で安定した性能を示す一方、SPIN は早期ピークの後に劣化することがある。
Figure 2 : Performance (%) comparisons between $\mathtt{T}\mbox{-}\mathtt{SPIN}$ and $\mathtt{SPIN}$ on two tasks: GSM8K and IFEval over $5$ iterations. The average scores over $10$ different tasks are also illustrated in the right panel.
Figure 2 : Performance (%) comparisons between $\mathtt{T}\mbox{-}\mathtt{SPIN}$ and $\mathtt{SPIN}$ on two tasks: GSM8K and IFEval over $5$ iterations. The average scores over $10$ different tasks are also illustrated in the right panel.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。