[논문 리뷰] PolyLM: An Open Source Polyglot Large Language Model
PolyLM은 커리큘럼 학습과 다국어 자기지도 학습으로 학습된 640B 토큰 규모의 1.7B 및 13B 크기의 오픈 소스 다국어 LLM을 제시하며, 영어 능력을 보존하면서 비영어 성능에서 강력한 성과를 달성한다.
Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: \url{https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation}.
연구 동기 및 목표
- 오픈 소스 다국어 LLM 간의 격차를 해소하기 위해 PolyLM을 13B 및 1.7B 사이즈로 만들다.
- 18개 언어와 32%의 비영어 데이터를 포함하는 640B-토큰 다국어 프리트레이닝 말뭉치를 활용한다.
- 높은 자원 언어가 아닌 언어로 영어 지식을 이전하기 위해 커리큘럼 학습을 도입한다.
- 다국어 SFT를 개선하기 위해 MultiAlpaca를 통해 다국어 지시 데이터(SFT)를 개발한다.
- 이해, 생성 및 번역 능력을 평가하기 위한 다국어 벤치마크를 만든다.
제안 방법
- 64 0B-token 프리트레이딩 데이터셋을 조립하되 68%는 영어, 32%는 다국어 데이터이며, 추가로 7.5B 코드 데이터와 1B 병렬 다국어 데이터를 포함한다.
- 1.7B/13B 모델용으로 24/40 계층의 디코더-전용 Transformer를 사용하고, RoPE 통합 및 Pre-LN 안정화를 적용한다.
- 언어 식별, 규칙 기반 및 ML 기반 품질 필터링, 중복 제거가 포함된 데이터 전처리 파이프라인을 적용한다.
- 영어 중심 데이터로 시작하고 두 번째 단계에서 고품질 다국어 데이터를 점진적으로 늘려 커리큘럼 학습을 적용한다.
- SFT용으로 11개 언어에 걸친 132,701개의 작업을 포함하는 다국어 자기지도 데이터셋인 MultiAlpaca를 만든다.
- 15개 언어에 걸친 NLU, 지식, NLG, MT 작업을 포괄하는 다국어 벤치마크를 구성한다.
실험 결과
연구 질문
- RQ1PolyLM이 영어 성능을 유지하면서 18개 언어에 걸쳐 강력한 다국어 역량을 달성할 수 있는가?
- RQ2커리큘럼 학습이 교차 언어 전달 및 다국어 지시 이행을 향상시키는가?
- RQ3다국어 자기지도 데이터(MultiAlpaca)가 제로샷 및 소수샷 다국어 태스크에 어떤 영향을 미치는가?
- RQ4다국어 벤치마크에서 PolyLM이 BLOOM/LLaMA와 같은 오픈 소스 모델과 어떻게 비교되는가?
- RQ5데이터 세트 구성과 토크나이저 설계가 다국어 압축 및 커버리지에 미치는 영향은 무엇인가?
주요 결과
- PolyLM-13B 및 PolyLM-1.7B는 유사 크기의 오픈 소스 모델보다 다국어 태스크에서 더 나은 성능을 보인다.
- 커리큘럼 학습은 영어 능력을 보존하면서 다국어 성능을 크게 향상시킨다.
- 다국어 지시 데이터는 다국어 제로샷 능력을 향상시킨다.
- PolyLM은 커버된 언어들 전반에서 여러 베이스라인보다 더 나은 토큰 압축을 달성하며, 영어 압축은 BLOOM/LLaMA에 비할 만큼이다.
- 모델, 지시 데이터, 다국어 벤치마크는 제공된 ModelScope 링크에서 공개되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.