QUICK REVIEW

[논문 리뷰] EuroLLM-22B: Technical Report

Miguel Moura Ramos, Duarte Alves|arXiv (Cornell University)|2026. 02. 05.

Natural Language Processing Techniques인용 수 0

한 줄 요약

EuroLLM-22B는 24개 EU 언어 전체와 추가 11개 언어를 다루도록 처음부터 학습된 거대하고 개방형 다국어 European-focused LLM이며, 32K 컨텍스트 창과 개선된 사후 학습 데이터로 운영되며 경쟁력 있는 다국어 및 지시 실행 성능을 달성하고 기본 모델/지시 모델, 데이터 및 코드가 공개된다.

ABSTRACT

This report presents EuroLLM-22B, a large language model trained from scratch to support the needs of European citizens by covering all 24 official European Union languages and 11 additional languages. EuroLLM addresses the issue of European languages being underrepresented and underserved in existing open large language models. We provide a comprehensive overview of EuroLLM-22B's development, including tokenizer design, architectural specifications, data filtering, and training procedures. Across a broad set of multilingual benchmarks, EuroLLM-22B demonstrates strong performance in reasoning, instruction following, and translation, achieving results competitive with models of comparable size. To support future research, we release our base and instruction-tuned models, our multilingual web pretraining data and updated EuroBlocks instruction datasets, as well as our pre-training and evaluation codebases.

연구 동기 및 목표

Open 모델로서 EU 24개 공식 언어와 추가 11개 언어 전체를-native하게 다루도록 유럽 언어의 저대표성을 해결한다.
고품질의 필터링된 사전 학습 코퍼스와 확장된 컨텍스트 창을 통해 다국어 추론, 지시 준수, 번역을 향상시킨다.
연구자들이 유럽에서 다국어 AI 개발을 지원하도록 모델, 데이터 및 코드 등 개방적으로 접근 가능한 자원을 제공한다.

제안 방법

다양한 다국어 데이터에 대해 32K 컨텍스트 창을 사용한 다단계 학습 스케줄로 EuroLLM-22B를 설계하고 학습한다.
토크나이저 및 아키텍처(SwiGLU, RoPE, RMSNorm, 계층화 구성)를 확장하고 그룹화된 질의 주의(quot) 및 사전 계층 정규화를 도입한다.
다언어 소스에 걸친 언어 인식 필터링과 품질 점수(EuroFilter)를 통한 사전 학습 데이터(EuroWeb)의 선별 및 품질 관리.
고품질 지시 데이터의 확보를 위한 여러 세대와 보상 모델 기반 선정을 활용하여 EuroBlocks v2로 포스트-트레이닝을 보강한다.
32K 컨텍스트를 활용한 지시 준수 미세조정으로 EuroLLM-22B-Instruct를 만들고 Axolotl + Liger-Kernel 같은 효율적 학습 도구를 활용한다.
베이스, 지시 미세조정 모델, 다국어 웹 데이터(EuroWeb), 사후 학습 데이터셋(EuroBlocks)과 전처 training 및 평가용 코드베이스를 공개한다.

Figure 1: Scheme of the learning rate scheduler.

실험 결과

연구 질문

RQ1EuroLLM-22B가 지시 준수, 추론 및 번역 과제에서 유사한 규모의 오픈 모델과 비교하여 다국어 벤치마크에서 어떤 성능을 보이는가?
RQ232K 컨텍스트 창과 향상된 포스트-트레이닝 데이터가 다국어 추론 및 지시 준수 능력에 어떤 영향을 미치는가?
RQ3유럽어 중심 데이터 큐레이션과 품질 필터링이 번역 품질을 해치지 않으면서 EU 언어 전반의 성능을 향상시키는가?
RQ4기본(Base) 모델과 지시 미세조정 Variant 간에 다국어 역량과 효율성 측면에서 EuroLLM 패밀리는 서로 어떻게 비교되는가?

주요 결과

EuroLLM-22B는 다국어 벤치마크에서 비슷한 규모의 모델들과 경쟁력 있는 결과를 달성한다.
지시 미세조정된 EuroLLM-22B는 일반적으로 9B 대비 우수한 성능을 보이며 지시 준수 및 STEM/문제 해결 과제에서 강한 향상을 보인다.
컨텍스트 길이를 32K로 확장하면 더 긴 입력 처리와 긴 컨텍스트 벤치마크 평가에서 성능이 향상되며 번역 품질에는 영향을 주지 않는다.
포스트 트레이닝 개선(EuroBlocks v2)은 영어 및 다국어 평가에서 이전 EuroLLM 체크포인트 대비 현저한 이점을 제공한다.
EuroLLM 패밀리는 크기와 학습 체계 측면에서 동종의 동료들 중에서 가장 강력한 완전 개방형 유럽식 대안으로 남아 있다.
기본 모델(EuroLLM-22B-Base)은 9B 기반 대비 지속적인 이익을 보여주며 더 큰 오픈 벤치마크에 비견될 만한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.