[논문 리뷰] CroissantLLM: A Truly Bilingual French-English Language Model
CroissantLLM은 1:1 영어-프랑스 데이터 비율로 학습된 1.3B 이중 언어 프랑스-영어 언어 모델로, 공개 데이터셋, 체크포인트, 프랑스 중심 벤치마크(FrenchBench)와 함께 공개되었으며 투명성 평가(81%)를 포함합니다.
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.
연구 동기 및 목표
- 영어 중심 편향에 대응하기 위해 영어와 프랑스어 데이터의 균형을 이룬 진정한 이중 언어 모델을 구축한다.
- 효율적인 디바이스 내 추론을 위한 고품질의 오픈 이중 언어 토크나이저와 학습 파이프라인을 개발한다.
- 이중 언어 LLM의 연구 및 산업 도입을 촉진하기 위한 데이터셋, 코드, 체크포인트 등 포괄적 자원을 공개한다.
- 프랑스어 이해 및 생성 능력을 평가하기 위해 FrenchBench를 도입한다.
- Foundation Model Transparency Index를 사용해 모델의 투명성을 평가하고 재현성을 촉진한다.
제안 방법
- 루터리 포지션 인코딩과 2048 컨텍스트 길이를 갖춘 디코더 기반 트랜스포머(Llama 계열)를 학습한다.
- 영어, 프랑스어 및 코드 데이터에 적합된 커스텀 32000-토큰 SentencePiece 토크나이저를 사용하여 이중 언어의 생성을 개선한다.
- 1:1 영어-프랑스 데이터 비율로 균형 잡힌 다국어 말뭉치를 구성하고 프랑스어, 코드, 영어 데이터를 1.1T 고유 토큰으로 업샘플링하여 3T 토큰 런을 수행한다.
- Nvidia A100 하드웨어에서 Megatron-Deepspeed로 사전 학습을 수행하며, 17일의 학습 규칙(약 99,648 GPU 시간)과 인과적 언어 모델링 목표를 따른다.
- 새로운 프랑스어 평가 모음인 FrenchBench를 만들어 공개하고 재현성을 위한 평가 코드와 데이터셋을 공개한다.
실험 결과
연구 질문
- RQ1진정한 이중 언어 학습 구성(1:1 영어-프랑스 데이터)이 교차 언어 성능과 편향에 어떤 영향을 미치는가?
- RQ21.3B 이중 언어 모델이 온 디바이스 추론에 효율적이면서도 프랑스어 능력을 경쟁력 있게 보이고 영어 편향을 낮출 수 있는가?
- RQ3맞춤형 이중 언어 토큰화와 데이터 큐레이션이 다국어 모델 성능에 미치는 영향은 무엇인가?
- RQ4새로 제안된 FrenchBench에서 CroissantLLM의 성능은 영어 중심 또는 다국어 기준선과 비교해 어떠한가?
주요 결과
- 저자는 CroissantLLM에 대해 Foundation Model Transparency Index의 기준 중 81%를 충족하는 것을 확인하여 높은 투명성을 시사한다.
- 1:1 영어-프랑스 데이터 비율과 이중 언어 토크나이저가 효율적인 인코딩을 제공하고 균형 잡힌 이중 언어 성능을 가능하게 한다.
- 가장 큰 모델은 토큰-파라미터 비율이 3000:1로 학습되어 추론 지향적 학습 전략이 온-디바이스 효율을 선호함을 강조한다.
- 최종 학습 혼합은 다양한 프랑스어 및 영어 출처에서 약 1.1T의 고유 토큰과 상당한 평행 데이터(4억 문장 쌍, 약 360억 토큰)를 포함한다.
- CroissantLLM은 소비자 하드웨어에서 효율적으로 실행되도록 설계되었으며, 에지 추론 타깃과 에너지-conscious 학습 고려사항을 갖춘다.
- FrenchBench는 영어 벤치마크를 넘어 사실적 지식, 생성 및 언어 이해를 측정하기 위한 전용 프랑스어 평가 모음을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.