[논문 리뷰] EngGPT2: Sovereign, Efficient and Open Intelligence
EngGPT2-16B-A3B는 유럽 주권성과 효율성을 위해 설계된 희소 Mixture-of-Experts LLM으로, 더 큰 밀집(dense) 모델보다 훨씬 적은 학습 및 추론 계산으로도 경쟁력 있는 벤치마크를 달성한다.
EngGPT2-16B-A3B is the latest iteration of Engineering Group's Italian LLM and it's built to be a Sovereign, Efficient and Open model. EngGPT2 is trained on 2.5 trillion tokens - less than Qwen3's 36T or Llama3's 15T - and delivers performance on key benchmarks, including MMLU-Pro, GSM8K, IFEval and HumanEval, comparable to dense models in the 8B-16B range, while requiring one-fifth to half of the inference power, and between one-tenth to one-sixth of the training data and consequent needed training power. Designed as a trained-from-scratch Mixture-of-Experts (MoE) architecture, EngGPT2 features 16 billion parameters with 3 billion active per inference, with expert sizes positioned between those used in GPT-OSS and Qwen3. Approximately 25% of its training corpus consists of Italian-language data, to deliver strong capabilities for European and Italian NLP tasks among models of similar scale. This efficiency aims to position EngGPT2 as a key contributor to the growing portfolio of open-weight European models, combining performance and efficiency with full alignment to the EU AI Act. EngGPT2 is also a single model capable of multiple reasoning modes: non-reasoning, reasoning in Italian or English, and turbo-reasoning (a concise, bullet-point style reasoning available in both languages designed for real-time reasoning use cases). EngGPT2 aims to set a new standard for resource-conscious, high-performance LLMs tailored to European and Italian contexts.
연구 동기 및 목표
- 주요 규제 정렬(EU AI Act)과 함께 주권적이고 개방적인 유럽 AI 생태계 촉진.
- 유럽 및 이탈리아 NLP 요구에 맞춘 효율적이고 개방형 가중치 LLM 아키텍처 개발.
- 희소 MoE 설계가 학습 및 추론 비용의 분수에 불과한 비용으로 경쟁력 있는 성능을 제공할 수 있음을 보여줌.
- 다국어 능력을 제공하고 이탈리아어 데이터의 상당한 통합.
- 기업 및 공공부문 사용을 위한 교육 파이프라인, 평가 방법, 배포 고려사항 상세화.
제안 방법
- 64개의 전문가를 각 계층당 두어 8개가 토큰당 활성화되는 16B 매개변수 희소 MoE 트랜스포머(EngGPT2-16B-A3B) 제안.
- Group Query Attention(GQA)와 Rotary Positional Embeddings 및 RMSNorm로 안정성 확보.
- 128-node HPC GPU 클러스터에서 최대 2.5T 토큰에 걸쳐 4단계(사전 학습, 긴 컨텍스트 적응, 중간 학습, 후속 학습)로 학습.
- Expert-parallelism 및 긴 컨텍스트 지원 최대 32768 토큰을 갖춘 Megatron 기반 분산 학습 스택 도입.
- 추론 및 도구 호출을 위한 전문 토큰이 포함된 어휘 131084 확장; 합법적 데이터 라이선스 및 저작권 필터링 통합.
- 표준화된 및 최적의 서비스 구성을 사용한 lm-evaluation-harness 및 BFCL EvalScope를 활용한 평가; 정규화된 효율성 메트릭 보고.
실험 결과
연구 질문
- RQ116B 매개변수의 희소 활성화 MoE 모델이 학습 및 추론 효율성을 고려했을 때 더 큰 밀집 기반선 대비 경쟁력 있는 성능을 달성할 수 있는가?
- RQ2EngGPT2가 다국어 및 이탈리아어 특화 작업에서, 긴 컨텍스트 추론 및 도구 통합을 포함하여, 비교 기반선 대비 어떤 성능을 보이는가?
- RQ3광범위한 컨텍스트 창 및 구조화된 추론 기능이 코드 생성, 수학적 추론, 함수 호출과 같은 하류 작업에 미치는 영향은 무엇인가?
- RQ4유럽의 개방형 가중치 모델이 EU AI Act 정렬 및 주권 목표를 달성하면서도 기업급 성능을 유지할 수 있는 정도는 어떠한가?
주요 결과
- 모델은 3개의 프리트레이닝 단계에 걸쳐 약 2.5조 토큰으로 학습되며 프리트레이닝에 약 250,000 GPU 시간, 추가 단계 포함 총 약 5.7e22 FLOPs를 생성한다.
- EngGPT2-16B-A3B는 각 계층당 64명의 전문가를 두고 토큰당 8개가 활성화되며 총 24계층으로, 한 포워드 패스당 약 30억 개의 활성 매개변수를 보장한다.
- 사전 학습 중 MFU는 약 21%–31%로 유지되며, 긴 컨텍스트 및 중간 학습 단계에서 효율성 트레이드오프로 인해 MFU가 낮아지는 반면, 후속 학습 MFU는 10% 미만으로 유지된다.
- 모델은 32768 토큰 컨텍스트 창을 지원하며 131,084의 어휘 크기와 추론/도구 호출용 12개의 특수 토큰을 사용한다.
- 표준 벤치마크에서 EngGPT2-16B-A3B는 학습 또는 추론 계산에 대해 정규화할 때 더 큰 밀집 벤치라인과 비슷한 성능을 달성하면서도 학습/추론 비용은 더 낮게 제공한다.
- 교육 및 평가 프레임워크는 투명성, 재현성 및 규제 정렬을 강조하며, Hugging Face Hub에의 공개 및 저작권/라이선스 필터링의 엄격한 적용을 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.