QUICK REVIEW

[論文レビュー] EngGPT2: Sovereign, Efficient and Open Intelligence

G. Ciarfaglia, A. Rosanova|arXiv (Cornell University)|Mar 17, 2026

Artificial Intelligence in Healthcare and Education被引用数 0

ひとこと要約

EngGPT2-16B-A3Bはヨーロッパの主権と効率性のために設計された疎なMixture-of-Experts LLMで、より大きな密なモデルよりはるかに少ないトレーニング・推論計算量で競争力のあるベンチマークを達成します。

ABSTRACT

EngGPT2-16B-A3B is the latest iteration of Engineering Group's Italian LLM and it's built to be a Sovereign, Efficient and Open model. EngGPT2 is trained on 2.5 trillion tokens - less than Qwen3's 36T or Llama3's 15T - and delivers performance on key benchmarks, including MMLU-Pro, GSM8K, IFEval and HumanEval, comparable to dense models in the 8B-16B range, while requiring one-fifth to half of the inference power, and between one-tenth to one-sixth of the training data and consequent needed training power. Designed as a trained-from-scratch Mixture-of-Experts (MoE) architecture, EngGPT2 features 16 billion parameters with 3 billion active per inference, with expert sizes positioned between those used in GPT-OSS and Qwen3. Approximately 25% of its training corpus consists of Italian-language data, to deliver strong capabilities for European and Italian NLP tasks among models of similar scale. This efficiency aims to position EngGPT2 as a key contributor to the growing portfolio of open-weight European models, combining performance and efficiency with full alignment to the EU AI Act. EngGPT2 is also a single model capable of multiple reasoning modes: non-reasoning, reasoning in Italian or English, and turbo-reasoning (a concise, bullet-point style reasoning available in both languages designed for real-time reasoning use cases). EngGPT2 aims to set a new standard for resource-conscious, high-performance LLMs tailored to European and Italian contexts.

研究の動機と目的

強力な規制適合（EU AI Act）を備えた主権的で開かれた欧州AIエコシステムを促進する。
欧州およびイタリアのNLPニーズに合わせた効率的でオープンウェイトのLLMアーキテクチャを開発する。
疎なMoE設計がトレーニング・推論コストの一部で競争力のある性能を提供できることを Demonstrate する。
多言語能力を提供し、イタリア語データの統合を大幅に拡張する。
エンタープライズおよび公的部門での使用のためのトレーニングパイプライン、評価方法、デプロイメントの考慮事項を詳述する。

提案手法

64エキスパート/層の16Bパラメータの疎なMoEトランスフォーマを提案する（EngGPT2-16B-A3B）、各トークンあたり8つのアクティブを持つ。
グループ化クエリアテンション（GQA）とRotary位置エンベディング、SwiGLU活性化を用い、安定性を確保する。
最大2.5Tトークンを128ノードHPC GPUクラスターで4フェーズ（事前学習、長文コンテキスト適応、中間学習、事後学習）で訓練する。
Megatronベースの分散トレーニングスタックを採用し、エキスパート並列性と長文コンテキストのサポートを最大32768トークンまで提供する。
推論・ツール呼び出しの専門トークンを含む131084語彙のトークナイザを拡張し、適合データライセンスと著作権フィルタリングを組み込む。
lm-evaluation-harnessとBFCL EvalScopeを用いて評価し、標準化された最適なサービング設定を適用し、正規化された効率指標を報告する。

実験結果

リサーチクエスチョン

RQ116Bパラメータの疎 activation MoEモデルが、トレーニングと推論の効率を考慮した場合、より大きな密なベースラインと競合する性能を達成できるか。
RQ2EngGPT2は多言語・イタリア語特有のタスク（長文コンテキスト推論とツール統合を含む）で、比較可能なベースラインと比べてどうか。
RQ3広範な文脈ウィンドウと構造化推論機能が、コード生成・数学的推論・関数呼び出しなどの下流タスクに与える影響はどの程度か。
RQ4欧州のオープンウェイトモデルがEU AI Actの適合性と主権目標を満たしつつ、エンタープライズ級のパフォーマンスを維持できるか。

主な発見

モデルは3つの事前学習フェーズで約2.5兆トークンを学習し、事前学習用に約25万GPU時間、追加フェーズを含め全体で約5.7e22 FLOPsに達する。
EngGPT2-16B-A3Bは24層で層ごとに64エキスパート、トークンあたり8活性化を用い、前方パスあたり約30億のアクティブパラメータを確保する。
平均モデルFLOPs利用率（MFU）は事前学習時に約21%–31%の範囲、長文・中間学習フェーズで効率のトレードオフにより低下、事後学習ではMFUが10%以下を維持。
32768トークンのコンテキストウィンドウをサポートし、語彙サイズ131,084に加え、推論/推論のための12の特殊トークンを使用。
標準ベンチマークでは、トレーニングまたは推論計算量を正規化した場合、 EngGPT2-16B-A3Bは大きな密なベースラインと同等の性能を達成しつつ、トレーニング/推論コストを低減。
トレーニングと評価のフレームワークは透明性、再現性、規制適合を強調し、Hugging Face Hubでの公開と著作権/ライセンスの厳格なフィルタリングを含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。