QUICK REVIEW

[論文レビュー] Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models

Shi Fu, Yingjie Wang|arXiv (Cornell University)|Jan 30, 2026

Topic Modeling被引用数 0

ひとこと要約

この論文はSelf-Rewarding Language Models (SRLMs)に対する最初の厳密な理論的保証を提供し、反復的な自己報酬付与が初期化に依存しない最終性能と収束率を持つ頑健な整合性を保証することを示す。

ABSTRACT

Self-Rewarding Language Models (SRLMs) achieve notable success in iteratively improving alignment without external feedback. Yet, despite their striking empirical progress, the core mechanisms driving their capabilities remain unelucidated, leaving a critical gap in theoretical understanding. This paper provides the first rigorous theoretical guarantees for SRLMs. We first establish a lower bound that characterizes the fundamental limits of a single update step, revealing a critical dependence on the quality of the initial model. We then derive finite-sample error bounds for the full iterative paradigm, showing that performance improves at a rate of $\widetilde{\mathcal{O}}\left(1/\sqrt{n} ight)$ with sample size $n$. Crucially, our analysis reveals that the dependence on the initial model decays exponentially with the number of iterations $T$. This provides a formal explanation for why self-rewarding succeeds: it robustly overcomes poor initialization by steering the dynamics toward internal stability and consistency. Finally, we instantiate our theoretical framework for the linear softmax model class, yielding tailored guarantees that connect our high-level insights to practical model architectures.

研究の動機と目的

外部の人間のフィードバックなしに言語モデルの自律的な整合性を必要とする動機づけ。
単一ステップの自己報酬更新の基本的な制限の特徴づけ。
多ラウンドの反復的自己報酬付与による有限サンプル保証の開発。
反復的更新が初期化の悪さを克服する仕組みの説明。
理論と実践を結ぶために、具体的な線形ソフトマックスモデルクラスで枠組みを適用。

提案手法

自己報酬信号 r_t=log π_t(y|x) によって駆動される演算子 T_{r_t} を組み合わせることで SRLM 更新を定義。
内部的一貫性と安定性を定量化するためにポリシー条件数 κ_t を導入。
κ_0 とサンプルサイズ n に依存する単一ステップの失敗下限を証明。
反復的な収束保証を有限サンプルで導出し、各反復での収束速度を約 O~(1/√n) と見積もる。
反復の回数が増えると初期化の影響が指数的に減衰することを κ_t の縮約によって示す。
線形ソフトマックスモデルへ枠組みを特化して、明示的な保証を得る。

実験結果

リサーチクエスチョン

RQ1SRLMs は外部のフィードバックなしで自己生成された報酬だけで信頼できる整合を達成できるか？
RQ2単一ステップの自己報酬更新の基本的な統計的・条件付け上の限界は何か？
RQ3反復的な自己報酬付与は初期化の悪さをどのように緩和し、有限サンプル保証は何か？
RQ4反復的更新が安定性と収束を生み出す仕組みは何か？
RQ5理論的結果は線形ソフトマックスモデルのアーキテクチャへどう適用されるか？

主な発見

単一ステップの SRLM 更新には初期ポリシー条件数 κ_0 とサンプルサイズ n に依存する失敗確率の下限がある。
反復的な自己報酬付与はポリシー条件数の縮約を誘発し、初期化の悪さに対する安定性と頑健性を向上させる。
T 回後には有限サンプル誤差界が、T に対して指数関数的に減衰する項と全体の速度が約̃O(1/√n) の和で達成される。
T が十分大きい場合（κ_0 および n に対して対数的）、初期化効果は無視できるレベルとなり、問題依存定数のもとで約̃O(1/√n) 収束を達成する。
線形ソフトマックスモデルでは、エントロピー項が log|Π| を置換する特化境界を提供し、次元 d に対する明示的な依存性を持つ同じ質的挙動を示す。
分析は学習ダイナミクスを推論挙動と結びつけ、初期化が不十分な場合でも反復的自己報酬付与が貪欲デコーディングの失敗を回避する方法を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。