Skip to main content
QUICK REVIEW

[논문 리뷰] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Nan Du, Yanping Huang|arXiv (Cornell University)|2021. 12. 13.
Topic Modeling인용 수 168
한 줄 요약

GLaM은 희소하게 활성화된 Mixture-of-Experts를 사용하여 언어 모델을 1.2조 매개변수로 확장하고, 29개 작업에서 GPT-3보다 제로샷/원샷/소수샷 성능이 더 우수하며, 추론 시 학습 에너지는 약 1/3, FLOPs는 절반 정도를 사용한다.

ABSTRACT

Scaling language models with more data, compute and parameters has driven significant progress in natural language processing. For example, thanks to scaling, GPT-3 was able to achieve strong results on in-context learning tasks. However, training these large dense models requires significant amounts of computing resources. In this paper, we propose and develop a family of language models named GLaM (Generalist Language Model), which uses a sparsely activated mixture-of-experts architecture to scale the model capacity while also incurring substantially less training cost compared to dense variants. The largest GLaM has 1.2 trillion parameters, which is approximately 7x larger than GPT-3. It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference, while still achieving better overall zero-shot and one-shot performance across 29 NLP tasks.

연구 동기 및 목표

  • 조밀한 아키텍처와 비교하여 학습 비용과 에너지 사용을 줄인 확장 가능한 언어 모델링의 필요성을 제시한다.
  • 계산량의 비례 증가 없이 모델 용량을 증가시키기 위해 희소하게 활성화된 MoE 계층을 탐구한다.
  • 광범위한 NLU/NLG 벤치마크 스위트에서 제로샷/원샷/소수샷 성능을 평가한다.
  • MoE와 조밀한 모델 간의 데이터 품질, 확장 동향 및 효율성 트레이드오프를 평가한다.

제안 방법

  • 번갈아 가며 위치한 Transformer 계층의 피드포워드 네트워크를 다수의 전문가를 포함하는 Mixture-of-Experts (MoE) 계층으로 교체한다.
  • 토큰마다 두 명의 최적 전문가를 선택하는 게이팅 네트워크를 사용하여 토큰당 두 개의 활성 전문가만으로 대략 O(E^2) 의 조합 용량을 얻는다.
  • 비-MoE 계층에서 계층별 상대 위치 바이어스와 GaLU/GeLU 유사 활성화를 채택하여 효율성과 성능을 향상시킨다.
  • 지정된 혼합 가중치로 웹 말뭉치를 선별하기 위해 품질 분류기를 사용하고 Wikipedia, 대화, 포럼, 도서, 뉴스와 혼합하여 1.6조 토큰의 고품질 데이터 세트에서 학습한다.
  • Adafactor로 최적화하고 MoE 보조 부하 균형 손실을 적용하며 대형 모델에 대해 2D 텐서 샤딩을 적용한다.

실험 결과

연구 질문

  • RQ1희소하게 활성화된 MoE 언어 모델이 조밀한 모델에 비해 학습 비용과 에너지를 감소시키면서 트릴리언 매개변수 규모로 확장될 수 있는가?
  • RQ2MoE 기반 디코더가 유사한 유효 FLOPs에서 조밀한 대응 모델에 비해 광범위한 NLP 작업에서 더 우수한 제로샷/원샷/소수샷 성능을 제공하는가?
  • RQ3대형 MoE 언어 모델에서 데이터 품질이 성능에 어떤 영향을 미치는가?
  • RQ4MoE 계층의 전문가 수를 늘릴 때의 확장성과 효율성 트레이드오프는 무엇인가?
  • RQ5지식 중심 작업과 오픈 도메인 QA에서 MoE 모델은 조밀한 모델과 비교하여 어떤 성과를 내는가?

주요 결과

  • 1.2T 매개변수와 MoE 계층당 64개 전문가를 가진 GLaM은 토큰당 약 96.6B 매개변수를 활성화하지만 제로/원샷/소수샷 설정에서 29개 벤치마크 전반에서 GPT-3과 경쟁력 있거나 더 나은 성능을 달성한다.
  • GLaM은 GPT-3의 학습 에너지를 약 1/3만 필요로 하고 추론 시 토큰당 FLOPs도 GPT-3의 약 절반 수준이다.
  • GLaM (64B/64E)은 7개 벤치마크 카테고리에서 평균적으로 GPT-3를 능가하며, 7개 중 6개 카테고리에서 우위를 보인다.
  • 데이터 품질은 성능에 긍정적으로 영향을 미치며, 필터링된 고품질 데이터로 학습하는 것이 비필터링된 더 큰 데이터 세트로 학습하는 것보다 하류 결과가 더 좋다.
  • MoE 모델은 데이터 효율성을 보여주며, 비슷한 유효 FLOPs에서 더 적은 데이터로 더 강한 성능을 달성하고 더 큰 규모에서 조밀한 상대 모델에 비해 확장 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.