[논문 리뷰] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
본 논문은 사전 학습 손실, 감독 데이터, 증강 데이터가 감독형 LLM의 수학 추론에 미치는 영향을 분석하고, 다양한 추론 경로로 데이터를 보강하기 위한 거부 샘플링 미세조정(RFT)을 도입하여 표준 SFT에 비해 상당한 이득을 보임을 보인다.
Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model's performance than the model's parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3\% on GSM8K which outperforms the supervised fine-tuning (SFT) accuracy of 35.9\% significantly.
연구 동기 및 목표
- 사전 학습 손실이 감독 미세조정(SFT) 및 인-context 학습(ICL) 하에서 수학 추론 성능과 어떻게 상관관계가 있는지 이해한다.
- 모델 크기에 대한 정량적 영향이 아닌 감독 데이터의 양이 증가함에 따라 추론 정확도가 어떻게 변하는지 특성화한다.
- 다양한 추론 경로를 생성하기 위한 거부 샘플링을 통한 데이터 증강과 그것이 성능에 미치는 영향을 조사한다.
- 여러 모델에서 거부 샘플링된 데이터를 집계하는 이점과 GSM8K에서의 baselines와의 비교를 보여준다.
제안 방법
- GSM8K를 수학 추론 벤치마크로 삼아 SFT 및 ICL 성능을 여러 LLM(LLaMA/LLaMA2 변형)에서 평가한다.
- 모델 크기나 토큰 수가 아닌 사전 학습 손실의 함수로 성능을 비교한다.
- 데이터의 로그-선형 스케일링을 확인하기 위해 감독 데이터의 양에 따른 성능 변화 분석한다.
- 다양한 추론 경로를 생성하기 위해 거부 샘플링을 적용하고, 정답을 필터링한 후 모델을 미세조정한다(RFT).
- 여러 기본 모델에서 거부 샘플링된 데이터를 중복 제거하고 집계하여 다양성 효과가 성능에 미치는 영향을 연구한다.
- GSM8K에서 단일/다중 모델의 ICL, SFT, RFT 등 기존 기준선과의 비교를 제공한다.
실험 결과
연구 질문
- RQ1사전 학습 손실이 LLM의 수학 추론 성능(SFT 및 ICL)에 어떻게 상관관계를 가지는가?
- RQ2수정 데이터의 양이 수학 추론 작업에서 모델 성능에 어떤 관계를 가지는가?
- RQ3거부 샘플링 미세조정(RFT)은 수학 추론을 개선하는가, 그리고 서로 다른 추론 경로의 수에 따라 성능은 어떻게 스케일링되는가?
- RQ4여러 모델에서 거부 샘플링된 데이터를 집계하는 것이 단일 모델 RFT보다 추가 이점을 제공하는가?
주요 결과
- 사전 학습 손실은 매개변수 수보다 수학 추론에 대한 더 나은 성능 지표이며, 연구된 구간에서 사전 학습 손실과 정확도는 대략 음의 선형으로 관련된다.
- SFT 성능은 감독 데이터의 양에 대해 로그-선형으로 스케일링되며, 모델이 더 미리 학습될수록 수익이 감소한다(수익 체감).
- RFT는 데이터에 많은 서로 다른 추론 경로가 포함될 때 수학 추론을 향상시키며, 더 약한 모델에서 더 큰 이득이 나타난다.
- 여러 모델에서 거부 샘플링된 데이터를 집계하면 단일 모델의 RFT보다 정확도가 더 높아지는 경향이 나타난다(예: LLaMA/LLaMA2 변형에서 각각 49.3, 55.4).
- RFT는 사전 학습보다 훨씬 저렴하며, 수학 추론 능력 확장을 위한 근본적인 해결책은 여전히 사전 학습 손실의 개선이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.