QUICK REVIEW

[논문 리뷰] Phi-4 Technical Report

Marah Abdin, Jyoti Aneja|arXiv (Cornell University)|2024. 12. 12.

Advanced Research in Science and Engineering인용 수 24

한 줄 요약

Phi-4는 14B 매개변수 언어 모델로, 고도로 합성된 데이터, 진보된 데이터 큐레이션, 그리고 새로운 사후 학습(post-training)을 활용하여 STEM 추론 벤치마크에서 GPT-4o 교사보다 우수한 성능을 발휘하면서 소규모에서도 경쟁력 있는 성능을 유지한다.

ABSTRACT

We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

연구 동기 및 목표

소형 LLM에서 추론 및 문제 해결 능력을 향상시키기 위한 고품질 합성 데이터의 필요성에 동기를 부여한다.
합성 데이터 생성, 유기적 데이터 큐레이션, 사후 학습 개선을 결합한 다중 단계 데이터 전략을 제안한다.
데이터 품질과 학습 체계가 추론 벤치마크에서 더 큰 모델을 능가할 수 있음을 증명한다.
phi-4가 여러 추론 중심 작업에서 더 큰 기준선과 일치하거나 능가하는 증거를 보여주되 효율성을 유지한다.

제안 방법

4096 컨텍스트 길이를 가진 14B 디코더-전용 트랜스포머를 개발하고 중간 학습에서 16K로 확장, 다국어 토크나이제이션을 적용한다.
다양한 기법을 통해 합성 데이터의 무가중치 토큰 약 400B를 생성한다(다중 에이전트 프롬프트, 자기 수정, 지시 역전, 결정 토큰 전략).
합성 생성을 시드하고 추론 과제와의 정렬을 개선하기 위해 웹, 책, 코드 등 고품질 유기 데이터의 큐레이션 및 필터링을 수행한다.
전처리(pretraining), 중간 학습(midtraining), 사후 학습(post-training)로 구성된 단계적 학습 계획을 적용하고 ablations 및 목표 벤치마크에 따라 데이터 혼합 및 커리큘럼을 조정한다.
고정밀도 추론과 안전성으로 출력을 이끌기 위해 정교화된 SFT 데이터셋과 Direct Preference Optimization(DPO) 등 사후 학습 방법을 적용한다.

Figure 1 : Average performance of different models on the November 2024 AMC-10 and AMC-12 tests. This is the average score (with maximum score 150) over the four tests on 100 runs with temperature $t=0.5$ . We chose $t=0.5$ to follow simple-evals [ 24 ] . Error bars are $2\sigma$ of the estimate. On

실험 결과

연구 질문

RQ1합성 데이터가 포함된 데이터 중심 학습 레시피가 14B 모델의 추론 능력에 어떤 영향을 미치는가?
RQ2합성 데이터와 정제된 사후 학습이 GPQA와 MATH 같은 STEM 벤치마크에서 훨씬 큰 모델과의 격차를 좁힐 수 있는가?
RQ3phi-4에서 어떤 데이터 혼합과 커리큘럼이 장문 컨텍스트 추론과 지식 보유를 극대화하는가?
RQ4사후 학습 방법(SFT, DPO, 결정 토큰 탐색)이 안전성, 견고성, 정렬에 미치는 영향은 무엇인가?

주요 결과

phi-4는 크기에 비해 추론 벤치마크에서 강력한 성능을 달성하며, 여러 STEM 과제에서 더 큰 모델과의 비교에서도 우수한 성과를 보인다.
합성 데이터가 성능의 주요 동인이며, 타깃 데이터 생성 및 중간 학습 데이터 혼합이 장문 컨텍스트 및 추론 능력을 향상시킨다.
개정된 SFT, 결정 토큰 탐색이 있는 DPO, 판정자 가이드 DPO 등 사후 학습 기법이 출력 언어를 더욱 정교하게 다듬고 정렬 및 안전성을 강화한다.
오염 방지 평가 접근법이 phi-4의 이득이 테스트 세트 누수에 의해 좌우되지 않음을 보여주며, 수학 벤치마크에서 경쟁력 있는 결과를 보여주는 AMC-2024 대회를 새롭게 평가했다.
맥락 길이를 4K에서 16K로 확장하기 위한 중간 학습과 긴 맥락 데이터로 장문 작업에서 성능이 향상된다.
데이터 제거 연구는 합성 데이터를 우선하고 고품질의 유기 데이터를 표적으로 사용할 때 더 나은 추론 이득을 얻고, 사후 학습이 지식과 추론의 균형을 맞춘다는 것을 보여준다.

Figure 2 : 5-shot MMLU score for phase 2 pretraining runs with 4 and 12 epochs of synthetic data. All models are trained for the same token horizon, thus the model with 4 epochs of synthetic has seen more (unique) web tokens. We see that despite many epochs on synthetic data, we do not see overfitti

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.