[논문 리뷰] DeepSeek-V3 Technical Report
DeepSeek-V3는 671B Mixture-of-Experts 언어 모델로, 토큰당 37B 활성화, 다중-헤드 잠재 주의 및 보조 손실 없는 로드 밸런싱을 특징으로 하며, FP8로 14.8T 토큰에 대해 학습되었다; 오픈 소스에서 강력한 성능과 클로즈드 소스에서의 경쟁력 있는 파라티를 달성한다.
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. In addition, its training process is remarkably stable. Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks. The model checkpoints are available at https://github.com/deepseek-ai/DeepSeek-V3.
연구 동기 및 목표
- 대규모 Mixture-of-Experts 아키텍처를 활용한 오픈 소스 LLM 능력 진전.
- FP8 혼합 정밀도와 듀얼 파이프 파이프라인 병렬화를 통해 학습 효율성과 안정성 향상.
- Multi-head Latent Attention 및 교차 노드 통신 최적화를 통해 추론 효율성 향상.
- 보조 손실 없는 로드 밸런싱 전략과 다중 토큰 예측(Multi-Token Prediction) 목표를 도입하여 성능 향상.
- 맥락 길이를 확장하고 사람의 선호도에 맞추기 위한 사후 학습(SFT 및 RL)을 수행하여 정렬.
제안 방법
- 추론 중 KV 캐시를 줄이면서도 성능을 유지하기 위해 Multi-head Latent Attention(MLA)을 활용한다.
- 보조 손실 없는 로드 밸런싱 전략으로 균형 잡힌 전문가 활용도를 유지하는 DeepSeekMoE 아키텍처를 사용한다.
- 학습 신호를 밀도화하고 추정 해독에 도움을 줄 수 있는 다중 토큰 예측(Multi-Token Prediction, MTP) objective를 도입한다.
- 타일별 및 블록별 양자화와 재계산 RMSNorm 및 MLA 업-프로젝션과 같은 메모리 절약 기법으로 FP8 혼합 정밀도 학습을 구현한다.
- DUALPIPE 파이프라인 병렬화 및 교차 노드 간 all-to-all 커널 최적화를 통해 통신 오버헤드를 가리고 세밀한 전문가 병렬화를 가능하게 한다.
- InfiniBand 및 NVLink를 활용한 크로스-노드 커뮤니케이션 전략을 수행하여 대역폭과 지연을 균형 있게 조정한다.
실험 결과
연구 질문
- RQ1MLA와 DeepSeekMoE가 규모에서 추론 및 학습 효율성 측면에서 어떤 성능 이점을 제공하는가?
- RQ2보조 손실 없는 로드 밸런싱 전략이 전통적인 보조 손실과 비교해 모델 성능 및 전문가 활용도에 어떤 영향을 미치는가?
- RQ3다중 토큰 예측(MTP) 목표가 학습 신호 및 다운스트림 작업 성능을 개선하는가?
- RQ4FP8 학습 및 DualPipe 프레임워크가 이 규모의 모델에 어떤 효율성 및 안정성 영향을 미치는가?
- RQ5오픈 소스 및 클로즈드 소스 모델에 대해 표준 벤치마크에서 DeepSeek-V3의 성능은 어떠한가?
주요 결과
| 단계 / 지표 | 사전 학습 (H800 GPU 시간) | 맥락 확장 (H800 GPU 시간) | 사후 학습 (H800 GPU 시간) | 총합 (H800 GPU 시간) |
|---|---|---|---|---|
| 학습 비용 (GPU 시간) | 2664K | 119K | 5K | 2788K |
| 학습 비용 (USD) | $5.328M | $0.238M | $0.01M | $5.576M |
- DeepSeek-V3 기본 모델은 코드 및 수학 벤치마크에서 다른 오픈 소스 기반 모델을 능가하고 여러 작업에서 선도적인 클로즈드 소스 모델에 근접합니다.
- MMLU에서 88.5, MMLU-Pro에서 75.9, GPQA에서 59.1의 성능을 달성하며, 선택된 벤치마크에서 GPT-4o 및 Claude-Sonnet-3.5와 유사한 성능을 보입니다.
- 사실 지식에서 SimpleQA 및 중국어 SimpleQA에서 오픈 소스 동료를 능가하며, 특히 중국어 사실 지식에서 뛰어납니다.
- 수학 벤치마크에서 비롱-CoT 모델 중 최첨단 결과를 달성하고 특정 작업(MATH-500)에서 일부 롱-CoT 기준선을 능가합니다.
- 코딩 작업에서 LiveCodeBench에서 최상위 모델이며, 전반적 엔지니어링 벤치마크에서도 Claude-Sonnet-3.5에 비해 경쟁력 있는 성능을 보입니다.
- 학습 과정은 매우 경제적(총 GPU 시간 2.788M)이고 안정적이며 회복 불가능한 손실 급등이나 롤백이 없습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.