[논문 리뷰] Phi-4 Technical Report
Phi-4는 14B 매개변수 언어 모델로, 고도로 합성된 데이터, 진보된 데이터 큐레이션, 그리고 새로운 사후 학습(post-training)을 활용하여 STEM 추론 벤치마크에서 GPT-4o 교사보다 우수한 성능을 발휘하면서 소규모에서도 경쟁력 있는 성능을 유지한다.
We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.
연구 동기 및 목표
- 소형 LLM에서 추론 및 문제 해결 능력을 향상시키기 위한 고품질 합성 데이터의 필요성에 동기를 부여한다.
- 합성 데이터 생성, 유기적 데이터 큐레이션, 사후 학습 개선을 결합한 다중 단계 데이터 전략을 제안한다.
- 데이터 품질과 학습 체계가 추론 벤치마크에서 더 큰 모델을 능가할 수 있음을 증명한다.
- phi-4가 여러 추론 중심 작업에서 더 큰 기준선과 일치하거나 능가하는 증거를 보여주되 효율성을 유지한다.
제안 방법
- 4096 컨텍스트 길이를 가진 14B 디코더-전용 트랜스포머를 개발하고 중간 학습에서 16K로 확장, 다국어 토크나이제이션을 적용한다.
- 다양한 기법을 통해 합성 데이터의 무가중치 토큰 약 400B를 생성한다(다중 에이전트 프롬프트, 자기 수정, 지시 역전, 결정 토큰 전략).
- 합성 생성을 시드하고 추론 과제와의 정렬을 개선하기 위해 웹, 책, 코드 등 고품질 유기 데이터의 큐레이션 및 필터링을 수행한다.
- 전처리(pretraining), 중간 학습(midtraining), 사후 학습(post-training)로 구성된 단계적 학습 계획을 적용하고 ablations 및 목표 벤치마크에 따라 데이터 혼합 및 커리큘럼을 조정한다.
- 고정밀도 추론과 안전성으로 출력을 이끌기 위해 정교화된 SFT 데이터셋과 Direct Preference Optimization(DPO) 등 사후 학습 방법을 적용한다.
![Figure 1 : Average performance of different models on the November 2024 AMC-10 and AMC-12 tests. This is the average score (with maximum score 150) over the four tests on 100 runs with temperature $t=0.5$ . We chose $t=0.5$ to follow simple-evals [ 24 ] . Error bars are $2\sigma$ of the estimate. On](https://ar5iv.labs.arxiv.org/html/2412.08905/assets/x1.png)
실험 결과
연구 질문
- RQ1합성 데이터가 포함된 데이터 중심 학습 레시피가 14B 모델의 추론 능력에 어떤 영향을 미치는가?
- RQ2합성 데이터와 정제된 사후 학습이 GPQA와 MATH 같은 STEM 벤치마크에서 훨씬 큰 모델과의 격차를 좁힐 수 있는가?
- RQ3phi-4에서 어떤 데이터 혼합과 커리큘럼이 장문 컨텍스트 추론과 지식 보유를 극대화하는가?
- RQ4사후 학습 방법(SFT, DPO, 결정 토큰 탐색)이 안전성, 견고성, 정렬에 미치는 영향은 무엇인가?
주요 결과
- phi-4는 크기에 비해 추론 벤치마크에서 강력한 성능을 달성하며, 여러 STEM 과제에서 더 큰 모델과의 비교에서도 우수한 성과를 보인다.
- 합성 데이터가 성능의 주요 동인이며, 타깃 데이터 생성 및 중간 학습 데이터 혼합이 장문 컨텍스트 및 추론 능력을 향상시킨다.
- 개정된 SFT, 결정 토큰 탐색이 있는 DPO, 판정자 가이드 DPO 등 사후 학습 기법이 출력 언어를 더욱 정교하게 다듬고 정렬 및 안전성을 강화한다.
- 오염 방지 평가 접근법이 phi-4의 이득이 테스트 세트 누수에 의해 좌우되지 않음을 보여주며, 수학 벤치마크에서 경쟁력 있는 결과를 보여주는 AMC-2024 대회를 새롭게 평가했다.
- 맥락 길이를 4K에서 16K로 확장하기 위한 중간 학습과 긴 맥락 데이터로 장문 작업에서 성능이 향상된다.
- 데이터 제거 연구는 합성 데이터를 우선하고 고품질의 유기 데이터를 표적으로 사용할 때 더 나은 추론 이득을 얻고, 사후 학습이 지식과 추론의 균형을 맞춘다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.