QUICK REVIEW

[논문 리뷰] The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning

Simin Fan, Dimitris Paparas|arXiv (Cornell University)|2026. 02. 11.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 프리트레이닝 동안 학습된 능력이 감독 세부 조정(SFT)으로 어떻게 전달되는지 데이터 혼합, 모델 규모, 벤치마크를 가로지르는 상관 프로토콜을 통해 분석하고, 전이의 신뢰성 여부와 보정(calibration)이 어떻게 진화하는지 밝힌다.

ABSTRACT

Understanding how language model capabilities transfer from pretraining to supervised fine-tuning (SFT) is fundamental to efficient model development and data curation. In this work, we investigate four core questions: RQ1. To what extent do accuracy and confidence rankings established during pretraining persist after SFT? RQ2. Which benchmarks serve as robust cross-stage predictors and which are unreliable? RQ3. How do transfer dynamics shift with model scale? RQ4. How well does model confidence align with accuracy, as a measure of calibration quality? Does this alignment pattern transfer across training stages? We address these questions through a suite of correlation protocols applied to accuracy and confidence metrics across diverse data mixtures and model scales. Our experiments reveal that transfer reliability varies dramatically across capability categories, benchmarks, and scales -- with accuracy and confidence exhibiting distinct, sometimes opposing, scaling dynamics. These findings shed light on the complex interplay between pretraining decisions and downstream outcomes, providing actionable guidance for benchmark selection, data curation, and efficient model development.

연구 동기 및 목표

프리트레이닝에서의 정확도와 신뢰도 순위가 감독 세부 조정(SFT) 후에도 지속되는 정도를 평가한다.
SFT 이후의 성능을 안정적으로 예측하는 벤치마크와 그렇지 않은 벤치마크를 구분한다.
다양한 데이터 혼합에서 모델 규모에 따라 전이 역학이 어떻게 변화하는지 특징화한다.
모델의 신뢰도와 정확도 간의 정합성(보정)이 얼마나 잘 나타나는지 확인하고, 이 정합성이 학습 단계 전반에 걸쳐 지속되는지 여부를 평가한다.

제안 방법

두 가지 규모(240M 및 1B 매개변수)의 디코더만 트랜스포머 모델을 학습한다.
웹(web), 코드(code), 큐레이션된 소스의 다양한 비율을 교차시켜 9개의 다양한 프리트레이닝 데이터 혼합을 생성한다.
사전 학습된 체크포인트를 단일 SFT 데이터셋(Tulu-v2-mix)에서 5 에포크로 미세 조정한다.
4개 능력 범주(상식, 과학, NLI, 의미론)에서 20개 벤치마크를 평가한다.
혼합 간 정확도와 신뢰도에 대한 교차 단계 상관관계를 계산하여 전이 신뢰성을 평가한다.
규모에 따른 교차-범주 일관성, 교차-단계 보정, 전이 패턴에 대한 영향을 분석한다.

Figure 1 : Cross-stage correlation by capability category. (a) Accuracy correlation : the 1B model generally shows higher transferability; (b) Confidence correlation : 240M maintains substantially higher correlation especially in Commonsense ( 0.87 vs. 0.40 ) and Science ( 0.82 vs. 0.49 ) domains. T

실험 결과

연구 질문

RQ1프리트레이닝에서의 정확도 및 신뢰도 순위가 SFT 후에도 지속되는 정도는 어느 정도인가?
RQ2전이의 초기 단계에서 신뢰할 수 있는 예측자를 제공하는 벤치마크와 그렇지 않은 벤치마크는 무엇인가?
RQ3모델 규모에 따라 전이 역학은 어떻게 변화하는가?
RQ4모델의 신뢰도가 정확도와 얼마나 잘 일치하며, 이 보정 패턴은 학습 단계 전반에 걸쳐 지속되는가?

주요 결과

모델 규모가 커질수록 정확도 전이가 증가한다(일반적으로 1B에서 교차 단계 정확도 상관관계가 240M보다 높다).
작은 규모(240M)에서 신뢰도 전이가 더 강하고, 큰 규모(1B)에서 약하며, 범주 의존적 패턴이 뚜렷하다.
상식 및 과학 벤치마크는 전반적으로 교차 단계 정확도 상관관계가 높으나, NLI(NLI) 및 의미론 벤치마크는 전이가 약하게 나타난다.
240M에서 상식 및 과학에 대한 교차 단계 평균 신뢰도 상관관계가 약 예: 0.87, 0.82 정도로 강하게 남아 있다(각각의 예시).
규모에 따른 범주 내 일관성 변화가 나타난다: 소형 모델은 범주 내에서 경쟁을 보이고, 대형 모델은 특히 과학에서 시너지를 보인다.
과학 작업은 신뢰도와 정확도의 정합성(r_align ~ 0.8)이 높지만, 상식 및 의미론 작업은 SFT를 통해 지속되는 보정 미스매치를 보인다.
교육 필터링 데이터(FineWeb-Edu)는 규모 의존적 정확도 및 보정 효과를 야기하여 240M에서 일부 작업을 개선하지만 1B에서는 때로 악화시키기도 한다.

Figure 2 : Cross-stage Correlation across various benchmarks. Each bar shows the Pearson correlation between PT and SFT performance on the certain benchmark across data mixtures. (a) Accuracy Correlation : the 1B model achieves higher transferrability than 240M (in average $\bar{r}$ = $\small 0.59$

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.