QUICK REVIEW

[논문 리뷰] Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models

Shi Fu, Yingjie Wang|arXiv (Cornell University)|2026. 01. 30.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 Self-Rewarding Language Models(SRLMs)에 대한 최초의 엄밀한 이론적 보장을 제시하며, 반복적인 자기보상이 해로운 초기화에 덜 민감하고 수렴 속도가 보장된 강건한 정렬로 이어진다는 것을 보인다.

ABSTRACT

Self-Rewarding Language Models (SRLMs) achieve notable success in iteratively improving alignment without external feedback. Yet, despite their striking empirical progress, the core mechanisms driving their capabilities remain unelucidated, leaving a critical gap in theoretical understanding. This paper provides the first rigorous theoretical guarantees for SRLMs. We first establish a lower bound that characterizes the fundamental limits of a single update step, revealing a critical dependence on the quality of the initial model. We then derive finite-sample error bounds for the full iterative paradigm, showing that performance improves at a rate of $\widetilde{\mathcal{O}}\left(1/\sqrt{n} ight)$ with sample size $n$. Crucially, our analysis reveals that the dependence on the initial model decays exponentially with the number of iterations $T$. This provides a formal explanation for why self-rewarding succeeds: it robustly overcomes poor initialization by steering the dynamics toward internal stability and consistency. Finally, we instantiate our theoretical framework for the linear softmax model class, yielding tailored guarantees that connect our high-level insights to practical model architectures.

연구 동기 및 목표

외부 인간 피드백 없이 언어 모델의 자율적 정렬의 필요성에 대한 동기를 부여한다.
단일 단계 자기 보상 업데이트의 근본적 한계를 특징짓다.
다단 라운드 반복적 자기 보상 정렬에 대한 한정된 샘플 보장을 개발한다.
반복 업데이트가 열악한 초기화를 어떻게 극복하는지 메커니즘을 설명한다.
이론을 구체적 선형 소프트맥스 모델 클래스에서 프레임워크를 구현하여 이론과 실무를 연결한다.

제안 방법

SRLM 업데이트를 r_t=log π_t(y|x)인 자기보상 신호에 의해 구동되는 연산자 T_{r_t}를 합성하는 것으로 정의한다.
내부 일관성과 안정성을 정량화하기 위해 정책 조건수 κ_t를 도입한다.
초기 정책 κ_0와 샘플 크기 n에 의존하는 단일 단계 실패 하한을 증명한다.
반복적인 수렴 보장으로 각 반복당 ~ Õ(1/√n)의 속도를 보여주는 유한 샘플 수렴 보장을 도출한다.
κ_t에 대한 수축을 통해 반복에 따라 초기화 영향이 지수적으로 감소함을 보인다.
선형 소프트맥스 모델에 프레임워크를 특수화하여 명시적 보장을 얻는다.

실험 결과

연구 질문

RQ1SRLM이 외부 피드백 없이도 자기 생성 보상만으로 신뢰할 수 있는 정렬을 달성할 수 있는가?
RQ2단일 단계 자기 보상 업데이트의 근본적 통계적 한계와 조건화 한계는 무엇인가?
RQ3반복적 자기 보상이 열악한 초기화를 어떻게 완화하고 유한 샘플 보장은 무엇인가?
RQ4반복적 업데이트가 어떤 메커니즘으로 안정성과 수렴을 생성하는가?
RQ5이론적 결과가 선형 소프트맥스 모델 아키텍처로 어떻게 번역되는가?

주요 결과

단일 단계 SRLM 업데이트는 실패 확률에 대해 초기 정책 조건수 κ_0와 샘플 크기 n에 의존하는 하한을 가진다.
반복 자기 보상은 정책 조건수를 수축시켜 초기화가 불량할 때의 안정성과 강건성을 향상시킨다.
T 라운드 후, 알고리즘은 감소항이 T에 따라 지수적으로 감소하고 전체 속도는 ~̃O(1/√n)인 유한 샘플 오차 한계를 달성한다.
T가 충분히 크면(κ_0 및 n에 비례하는 대수 로그 수준), 초기화 효과가 무시 가능해져 문제 관련 상수로 제한된 ~̃O(1/√n) 수렴을 보인다.
선형 소프트맥스 모델의 경우, 엔트로피 항이 log|Π|를 대체하는 맞춤형 보장을 제공하면서 차원 d에 대한 명시적 의존성을 보이며 동일한 정성적 동작을 보인다.
해석은 학습 역학을 추론 동작과 연결시켜, 반복적 자기 보상이 초기화가 좋지 않은 경우 탐욕적 디코딩 실패를 피하는 데 어떻게 도움이 되는지 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.