QUICK REVIEW

[论文解读] EngGPT2: Sovereign, Efficient and Open Intelligence

G. Ciarfaglia, A. Rosanova|arXiv (Cornell University)|Mar 17, 2026

Artificial Intelligence in Healthcare and Education被引用 0

一句话总结

EngGPT2-16B-A3B 是一个面向欧洲主权与效率的稀疏专家模型大语言模型，在训练和推理计算显著低于更大密集模型的情况下，达到具有竞争力的基准。

ABSTRACT

EngGPT2-16B-A3B is the latest iteration of Engineering Group's Italian LLM and it's built to be a Sovereign, Efficient and Open model. EngGPT2 is trained on 2.5 trillion tokens - less than Qwen3's 36T or Llama3's 15T - and delivers performance on key benchmarks, including MMLU-Pro, GSM8K, IFEval and HumanEval, comparable to dense models in the 8B-16B range, while requiring one-fifth to half of the inference power, and between one-tenth to one-sixth of the training data and consequent needed training power. Designed as a trained-from-scratch Mixture-of-Experts (MoE) architecture, EngGPT2 features 16 billion parameters with 3 billion active per inference, with expert sizes positioned between those used in GPT-OSS and Qwen3. Approximately 25% of its training corpus consists of Italian-language data, to deliver strong capabilities for European and Italian NLP tasks among models of similar scale. This efficiency aims to position EngGPT2 as a key contributor to the growing portfolio of open-weight European models, combining performance and efficiency with full alignment to the EU AI Act. EngGPT2 is also a single model capable of multiple reasoning modes: non-reasoning, reasoning in Italian or English, and turbo-reasoning (a concise, bullet-point style reasoning available in both languages designed for real-time reasoning use cases). EngGPT2 aims to set a new standard for resource-conscious, high-performance LLMs tailored to European and Italian contexts.

研究动机与目标

推动一个与 EU AI Act 强监管对齐的主权、开放欧洲 AI 生态系统。
开发一个面向欧洲与意大利 NLP 需求的高效、开放权重的 LLM 架构。
证明稀疏 MoE 设计在训练和推理成本显著较低的情况下仍能提供具有竞争力的性能。
提供多语言能力并大量整合意大利语数据。
详细说明训练流水线、评估方法和企业与公共部门部署考虑。

提出的方法

提出一个 16B 参数的稀疏 MoE 转换器（EngGPT2-16B-A3B），每层 64 个专家，每个标记 8 个活跃。
使用分组查询注意力（GQA）和 SwiGLU 激活，配合 Rotary 位置嵌入和 RMSNorm 以提升稳定性。
在高性能计算 GPU 集群（128 节点）上进行四阶段训练（预训练、长上下文适应、中期训练、后期训练），覆盖多达 2.5T tokens。
采用 Megatron 基于的分布式训练栈，具备专家并行性和长上下文支持，最高可达 32768 token。
扩展分词器（131084 词汇表）并为推理与工具调用加入专用标记；整合合规的数据许可与版权过滤。
使用 lm-evaluation-harness 和 BFCL EvalScope 进行评估，提供标准化与最优部署配置；报告归一化的效率指标。

实验结果

研究问题

RQ1在 16B 参数的稀疏激活 MoE 模型下，考虑训练与推理效率，是否能在与更大密集基线相比时取得具有竞争力的性能？
RQ2EngGPT2 在多语言和意大利语特定任务（包括长上下文推理与工具集成）上相对于可比基线的表现如何？
RQ3广泛的上下文窗口与结构化推理能力对代码生成、数学推理与函数调用等下游任务的影响如何？
RQ4欧洲开放权重模型在满足 EU AI Act 对齐与主权目标的同时，能在多大程度上保持企业级性能？

主要发现

该模型在约 2.5 万亿 Tokens 的三阶段预训练中训练，并且预训练的 GPU 小时约为 250,000 小时，另有后续阶段，总计大约 5.7e22 FLOPs。
EngGPT2-16B-A3B 在每层 64 位专家、每标记 8 个激活的设置下，共 24 层，确保每次前向传播约有 30 亿个活跃参数。
在预训练阶段，平均模型 FLOPs 利用率（MFU）大致在 21%–31% 之间，长上下文与中期训练阶段由于效率权衡而呈现较低 MFU，后期训练 MFU 保持在 10% 以下。
模型支持 32768-token 的上下文窗口，词汇表大小为 131,084，并额外增加 12 个用于推理/工具调用的专用标记。
在标准基准测试中，EngGPT2-16B-A3B 在对训练或推理计算进行归一化后，性能与更大密集基线相当，同时提供更低的训练/推理成本。
训练与评估框架强调透明性、可重复性和监管对齐，包括在 Hugging Face Hub 的公开发布以及严格的版权/许可过滤。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。