[논문 리뷰] BYOL: Bring Your Own Language Into LLMs
BYOL은 언어의 디지털 발자국에 맞춘 LLM 개발을 위한 통합되고 언어 인식이 가능한 프레임워크를 제시하며, 자원이 부족한 언어에 대한 풀스택 데이터 정제와 극소-자원 언어를 위한 번역-매개 포함을 포함하고, 공개 벤치마크와 모델을 제공합니다.
Large Language Models (LLMs) exhibit strong multilingual capabilities, yet remain fundamentally constrained by the severe imbalance in global language resources. While over 7,000 languages are spoken worldwide, only a small subset (fewer than 100) has sufficient digital presence to meaningfully influence modern LLM training. This disparity leads to systematic underperformance, cultural misalignment, and limited accessibility for speakers of low-resource and extreme-low-resource languages. To address this gap, we introduce Bring Your Own Language (BYOL), a unified framework for scalable, language-aware LLM development tailored to each language's digital footprint. BYOL begins with a language resource classification that maps languages into four tiers (Extreme-Low, Low, Mid, High) using curated web-scale corpora, and uses this classification to select the appropriate integration pathway. For low-resource languages, we propose a full-stack data refinement and expansion pipeline that combines corpus cleaning, synthetic text generation, continual pretraining, and supervised finetuning. Applied to Chichewa and Maori, this pipeline yields language-specific LLMs that achieve approximately 12 percent average improvement over strong multilingual baselines across 12 benchmarks, while preserving English and multilingual capabilities via weight-space model merging. For extreme-low-resource languages, we introduce a translation-mediated inclusion pathway, and show on Inuktitut that a tailored machine translation system improves over a commercial baseline by 4 BLEU, enabling high-accuracy LLM access when direct language modeling is infeasible. Finally, we release human-translated versions of the Global MMLU-Lite benchmark in Chichewa, Maori, and Inuktitut, and make our codebase and models publicly available at https://github.com/microsoft/byol .
연구 동기 및 목표
- LLM에서 불균형한 글로벌 언어 자원으로 인한 다국어 성능 저하의 필요성을 제고한다.
- 언어를 네 계층으로 분류하고 그에 따라 통합 경로를 선택하는 통합 BYOL 프레임워크를 제안한다.
- 저자원 언어를 위한 풀스택 데이터 정제와 지속적 사전학습을 개발하여 LLM 성능을 향상시킨다.
- 직접 모델링이 불가능한 경우에 접근 가능성을 확보하기 위한 극소-자원 언어를 위한 번역-매개 포함을 도입한다.
- 재현성과 다양한 언어에 대한 접근성을 지원하기 위해 벤치마크, 모델 및 코드를 공개한다.
제안 방법
- 선별된 웹 규모 말뭉치를 기반으로 Extreme-Low, Low, Mid, High의 네 계층으로 언어를 매핑하는 언어 자원 분류 체계를 정의한다.
- 저자원 언어에 대해 말뭉치 정제, 합성 텍스트 생성, 지속적 사전학습 및 지도 미세조정을 통해 언어별 LLM을 생성하는 풀스택 파이프라인을 구현한다.
- 언어별 모델과 다국어 모델을 결합하기 위해 가중치 공간 모델 병합(weight-space model merging)을 통해 영어 및 다국어 능력을 보존한다.
- 극소-자원 언어의 경우 직접적인 언어 모델링이 비실용적일 때 LLM 접근을 가능하게 하는 번역-매개 포함 경로를 적용하고, 맞춤형 기계 번역을 사용한다.
실험 결과
연구 질문
- RQ1계층화된 언어 자원 분류가 확장 가능하고 언어 인식이 있는 LLM 개발을 가능하게 할 수 있는가?
- RQ2언어별 데이터 정제와 지속적 사전학습이 다언어 기준선에 비해 저자원 언어에서 측정 가능한 이점을 제공하는가?
- RQ3가중치 공간 모델 병합이 특정 언어에 전문화하면서도 영어 및 다국어 능력을 보존할 수 있는가?
- RQ4직접 모델링이 불가능한 극소-자원 언어에서 번역-매개 포함이 효과적인가?
- RQ5BYOL 하에서 Chichewa, Maori, 및 Inuktitut에 대해 어떤 벤치마크와 보고된 개선이 달성 가능한가?
주요 결과
- Chichewa 및 Maori 언어별 파이프라인은 12개의 벤치마크에 걸쳐 강력한 다국어 기준선 대비 평균 약 12%의 개선을 달성한다.
- 가중치 공간 모델 병합은 대상 언어를 전문화하는 동시에 영어 및 다국어 능력을 보존한다.
- Inuktitut의 경우 번역-매개 포함에 사용된 맞춤형 기계 번역 시스템이 상용 기준선 대비 BLEU를 4 포인트 향상시킨다.
- Chichewa, Maori, Inuktitut의 글로벌 MMLU-Lite 벤치마크가 인간 번역과 함께 공개된다.
- 재현성을 지원하기 위해 코드베이스와 모델이 공개된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.