Skip to main content
QUICK REVIEW

[논문 리뷰] Stabilizing Iterative Self-Training with Verified Reasoning via Symbolic Recursive Self-Alignment

Xinyu Zhang|arXiv (Cornell University)|2026. 03. 23.
Topic Modeling인용 수 0
한 줄 요약

NSRSA는 반복적 자기훈련에 상징적 검증 서브시스템을 추가하여 추론 단계 수준에서 학습 데이터를 필터링하고 오류 전파를 방지하며 GSM8K 성능을 강화하고 태스크 간 양의 전이를 달성한다.

ABSTRACT

Recursive self-improvement--where a model iteratively trains on its own outputs--promises sustained capability growth but faces a fundamental obstacle: recursive drift. As models train on self-generated data across multiple iterations, errors in intermediate reasoning compound, leading to mode collapse and performance degradation. We propose Neuro-Symbolic Recursive Self-Alignment (NSRSA), which stabilizes iterative self-training by embedding a symbolic verification subsystem that gates training data quality at the reasoning step level. Unlike outcome-only filtering (which admits "lucky guesses" with flawed reasoning), NSRSA verifies each arithmetic operation via sympy, checks logical flow consistency across reasoning steps, and enforces domain constraints. We evaluate NSRSA on GSM8K using Qwen3-4B-Thinking across 5 self-training iterations under five conditions: no verification, outcome verification, majority voting, full NSRSA symbolic verification, and NSRSA with DPO. Our filtering analysis shows that NSRSA rejects approximately 34% of correct-answer solutions that pass outcome verification, eliminating "lucky guesses" with flawed reasoning from the training set. We further demonstrate that constructing DPO preference pairs from NSRSA verification teaches the model to distinguish sound from flawed reasoning (reward accuracy 46% to 63%). NSRSA provides an extensible framework that demonstrates how external symbolic verification can make recursive self-improvement measurable and reliable within domains where automated verification is available.

연구 동기 및 목표

  • 생성된 데이터의 재귀적 드리프트를 다루면서 재귀적 자기향상을 촉진한다.
  • 훈련 데이터 품질을 선별하기 위한 단계 수준의 기호적 검증 프레임워크를 도입한다.
  • 기호적으로 검증된 추론이 반복 간에 더 안정적이고 신뢰할 수 있는 재귀를 산출함을 입증한다.
  • 검증 기반 학습이 교차 태스크 전이를 향상시키고 재현 가능한 파이프라인을 제공함을 보여준다.

제안 방법

  • 네 가지 점검으로 훈련 데이터를 선별하기 위해 자체 학습 루프에 기호적 검증 서브시스템을 삽입한다: 정답 여부, sympy를 통한 산술 검증, 논리적 흐름 일관성, 도메인 제약 충족.
  • 네 가지 검증 전략을 비교한다: 검증 없음, 결과만 검증, 다수결 투표, 전체 NSRSA 기호적 검증(선택적 DPO 포함).
  • 모델을 미세조정하기 전에 NSRSA로 자기생성 솔루션을 필터링한 다음, Qwen3-4B-Thinking과 함께 GSM8K에서 5회 자기훈련 반복에 대해 평가한다.
  • NSRSA로 검증된 솔루션과 검증 실패 솔루션으로 Direct Preference Optimization (DPO) 페어를 구성하여 운 좋은 추론보다 건전한 추론을 학습시킨다.
  • 데이터 생성, 검증, 학습 및 평가를 포함한 재현 가능한 파이프라인을 제공한다.
Figure 1: NSRSA pipeline. At each iteration, the model generates multiple solutions per problem. The symbolic verification subsystem checks answer correctness, arithmetic validity (via sympy ), logical flow consistency, and domain constraints. Only solutions passing all checks enter the training set
Figure 1: NSRSA pipeline. At each iteration, the model generates multiple solutions per problem. The symbolic verification subsystem checks answer correctness, arithmetic validity (via sympy ), logical flow consistency, and domain constraints. Only solutions passing all checks enter the training set

실험 결과

연구 질문

  • RQ1단계 수준의 기호적 검증이 반복적 자기훈련에서 결과만 검증에 비해 재귀적 드리프트를 줄이는가?
  • RQ2NSRSA가 GSM8K 정확도, 자기 일관성, 모드 다양성에 다중 자기훈련 반복에서 어떻게 영향을 미치는가?
  • RQ3기호적으로 검증된 추론이 MATH-500으로의 교차 태스크 전이를 개선하고 DPO 선호 학습으로 이점을 얻을 수 있는가?

주요 결과

  • NSRSA는 5회의 반복에서 정확도 증가를 유지하여 GSM8K에서 91.0%에 도달하는 반면, 검증 없음은 붕괴하고 결과만 검증은 정체된다.
  • NSRSA는 결과 검증을 통과하는 정답 솔루션의 약 34%를 거부하여 잘못된 추론을 학습 데이터에서 제거한다.
  • NSRSA에서 파생된 선호로 훈련된 DPO는 보상 정확도를 46%에서 63%로 올리고 GSM8K 정확도 91.2%를 달성한다(반면 NSRSA만 사용할 경우 91.0%).
  • NSRSA는 MATH-500으로의 긍정적 교차 태스크 전이를 달성하여 45.5%에서 51.2%로 개선했다(+5.7 포인트).
  • NSRSA는 반복에 걸쳐 해법 다양성을 유지하며(Self-BLEU 감소), 결과만 검증 방법에 비해 모드 붕괴가 감소함을 시사한다.
Figure 2: GSM8K accuracy across 5 self-training iterations. NSRSA (green) enables stable recursive improvement. Outcome verification (orange) plateaus after iteration 2. No verification (red) collapses by iteration 3.
Figure 2: GSM8K accuracy across 5 self-training iterations. NSRSA (green) enables stable recursive improvement. Outcome verification (orange) plateaus after iteration 2. No verification (red) collapses by iteration 3.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.