[논문 리뷰] GLM-130B: An Open Bilingual Pre-trained Model
GLM-130B는 130B 매개변수의 영어-중국어 이중언어 프리트레인 모델로, GPT-3를 다수의 영어 벤치마크에서 능가하고 중국어에서 ERNIE Titan 3.0을 능가하도록 오픈 소스로 공개되었으며 INT4 양자화를 통해 합리적인 GPU에서 추론이 가능하다.
We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language model with 130 billion parameters. It is an attempt to open-source a 100B-scale model at least as good as GPT-3 (davinci) and unveil how models of such a scale can be successfully pre-trained. Over the course of this effort, we face numerous unexpected technical and engineering challenges, particularly on loss spikes and divergence. In this paper, we introduce the training process of GLM-130B including its design choices, training strategies for both efficiency and stability, and engineering efforts. The resultant GLM-130B model offers significant outperformance over GPT-3 175B (davinci) on a wide range of popular English benchmarks while the performance advantage is not observed in OPT-175B and BLOOM-176B. It also consistently and significantly outperforms ERNIE TITAN 3.0 260B -- the largest Chinese language model -- across related benchmarks. Finally, we leverage a unique scaling property of GLM-130B to reach INT4 quantization without post training, with almost no performance loss, making it the first among 100B-scale models and more importantly, allowing its effective inference on 4$ imes$RTX 3090 (24G) or 8$ imes$RTX 2080 Ti (11G) GPUs, the most affordable GPUs required for using 100B-scale models. The GLM-130B model weights are publicly accessible and its code, training logs, related toolkit, and lessons learned are open-sourced at \url{https://github.com/THUDM/GLM-130B/}.
연구 동기 및 목표
- 투명성과 실용성을 갖춘 100B 규모의 오픈 이중언어 LLM 학습을 입증한다.
- GLM-130B가 영어 벤치마크에서 GPT-3를 능가하고 PaLM 540B와의 경쟁력을 보여준다.
- GLM-130B를 중국어 벤치마크에서 평가하고 ERNIE Titan 3.0 260B와 비교한다.
- 저렴한 추론을 가능하게 하는 학습 안정성 및 플랫폼 인식 전략을 개발한다.
제안 방법
- [MASK] 및 [gMASK] 토큰을 활용한 GLM 양방향 자기회귀 블랭크 인퓨링(Objective)을 채택한다.
- 훈련 안정화를 위한 특정 초기화를 사용한 DeepNorm 기반 Post-LN을 활용한다.
- FP16 순전/역전 및 FP32 옵티마이저 상태를 가진 혼합 정밀도 학습을 사용하고 임베딩 그래디언트 축소를 적용해 임베딩을 안정화한다.
- 1.2T 영어, 1.0T 중국어 WudaoCorpora, 추가 250G 중국어 데이터로 총 약 2.45T 토큰에서 사전학습을 수행한다.
- 사전학습 중 74개 프롬프트 데이터 세트를 포함한 5% 다중 작업 명령 사전학습(MIP)을 도입한다.
- 3D 병렬성(4-웨이 텐서, 8-웨이 파이프라인)과 400B 토큰에 걸친 60일 DGX-A100 학습을 구성한다.
실험 결과
연구 질문
- RQ1100B 규모의 오픈 이중언어 LLM이 GPT-3 및 BLOOM/OPT 계열에 비해 영어 지시샘 문제에서 우수한 제로샷 및 페어샷 성능을 달성할 수 있는가?
- RQ2GLM-130B의 양방향 GLM 아키텍처가 디코더-전용 모델에 비해 언어 이해 작업에서 개선을 가져오는가?
- RQ3대규모 이중언어 LLM 사전학습에 효과적인 학습 안정성 전략(예: DeepNorm, EGS)은 무엇이며 성능과 접근성에 어떤 영향을 미치는가?
- RQ4INT4 가중치 양자화가 소비자 등급 GPU에서 큰 성능 손실 없이 합리적인 추론을 가능하게 하는가?
- RQ5GLM-130B는 중국어 벤치마크(CLUE, FewCLUE)에서 ERNIE Titan 3.0 260B와 비교해 어떠한 성과를 보이는가?
주요 결과
- GLM-130B는 영어 벤치마크 112개 과제에 걸쳐 GPT-3 175B를 능가한다.
- 제로샷 LAMBADA 정확도는 양방향 주의(attention)로 80.2%에 도달하며 새로운 기록을 세운다.
- GLM-130B는 많은 경우에서 PaLM 540B를 능가하고 중국어 CLUE 작업에서 ERNIE Titan 3.0 260B를 능가한다.
- INT4 가중치 양자화로 4× RTX 3090(24G) 또는 8× RTX 2080 Ti(11G)에서 거의 성능 손실 없이 추론이 가능하다.
- GLM-130B는 소수-shot 설정에서 MMLU에서 강한 결과를 보이고 BIG-bench-lite 제로샷 작업에서도 잘 작동한다.
- 모델은 벤치마크 전반에서 안정적인 성능을 보이는 INT4 양자화 스케일링 법칙을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.