QUICK REVIEW

[논문 리뷰] PaLM: Scaling Language Modeling with Pathways

Aakanksha Chowdhery, Sharan Narang|arXiv (Cornell University)|2022. 04. 05.

Topic Modeling인용 수 2,124

한 줄 요약

PaLM은 Pathways 시스템을 사용하여 780B 토큰으로 540B 매개변수의 자동회귀 Transformer를 훈련시키고, 수백 개의 과제에서 최첨단 few-shot 결과를 달성하며 추론 및 다국어 능력에서 주목할 만한 향상을 보입니다.

ABSTRACT

Large language models have been shown to achieve remarkable performance across a variety of natural language tasks using few-shot learning, which drastically reduces the number of task-specific training examples needed to adapt the model to a particular application. To further our understanding of the impact of scale on few-shot learning, we trained a 540-billion parameter, densely activated, Transformer language model, which we call Pathways Language Model PaLM. We trained PaLM on 6144 TPU v4 chips using Pathways, a new ML system which enables highly efficient training across multiple TPU Pods. We demonstrate continued benefits of scaling by achieving state-of-the-art few-shot learning results on hundreds of language understanding and generation benchmarks. On a number of these tasks, PaLM 540B achieves breakthrough performance, outperforming the finetuned state-of-the-art on a suite of multi-step reasoning tasks, and outperforming average human performance on the recently released BIG-bench benchmark. A significant number of BIG-bench tasks showed discontinuous improvements from model scale, meaning that performance steeply increased as we scaled to our largest model. PaLM also has strong capabilities in multilingual tasks and source code generation, which we demonstrate on a wide array of benchmarks. We additionally provide a comprehensive analysis on bias and toxicity, and study the extent of training data memorization with respect to model scale. Finally, we discuss the ethical considerations related to large language models and discuss potential mitigation strategies.

연구 동기 및 목표

언어 모델의 규모 확상이 광범위한 NLP 작업에서 few-shot 학습에 어떤 영향을 미치는지 조사합니다.
Pathways를 사용해 TPU v4 Pods에서 파이프라인 없이 초대형 모델의 효율적인 훈련을 입증합니다.
PaLM을 영어 NLP 벤치마크, BIG-bench, 다국어 작업, 코드 생성, 번역에서 평가합니다.
편향성, 독성 및 기억화를 분석하고 윤리적 고려사항 및 가능한 완화책을 논의합니다.]
method:["학습 속도를 높이기 위해 SwiGLU 활성화와 병렬 트랜스포머 층을 갖춘 디코더 전용 트랜스포머를 사용합니다.","다중 질의 어텐션, RoPE 임베딩, 입력-출력 임베딩의 공유, 바이어스 없음, 다국어 데이터를 위한 256k SentencePiece 어휘를 채택합니다.","Pathways 시스템을 통해 6144 TPU v4 칩에서 780B 토큰 혼합(코드 포함)을 대상으로 8B, 62B, 540B의 세 가지 모델 크기로 훈련합니다.","Model FLOPs 활용도(MFU)로 모델 효율성을 측정하고 하드웨어 FLOPs 활용도(HFU)를 사용한 이전 모델과 비교합니다.","영어 벤치마크 29개, BIG-bench, 번역, 다국어 NLG/QA 및 추론 작업에서 평가하고 편향/독성 및 기억화를 분석합니다.]

제안 방법

Related language:

실험 결과

연구 질문

RQ1모델 규모를 늘리는 것이 다양한 NLP 과제에서 few-shot 성능에 어떤 영향을 미치는가?
RQ2Pathways로 540B 모델을 훈련해 태스크별 미세조정 없이 최첨단 결과를 달성할 수 있는가?
RQ3PaLM의 다국어, 추론 및 코드 생성 능력은 어떠하며 어떻게 확장되는가?
RQ4스케일에 따른 PaLM의 편향성, 독성, 기억화 특성은 무엇이며 이를 어떻게 완화할 수 있는가?]
RQ5key_findings:["PaLM 540B는 수백 개의 과제에서 최첨단 few-shot 결과를 달성하고, 많은 벤치마크에서 이전의 미세조정 SOTA를 능가합니다.","BIG-bench에서 규모에 따라 불연속적 개선이 나타나는 몇몇 과제가 있어 Emergent capabilities가 시사됩니다.","PaLM은 다국어 성능이 강하며, 비교적 적은 비영어 데이터 비율로 여러 과제에서 비영어 SOTA와의 격차를 메웁니다.","PaLM은 few-shot 설정에서 chain-of-thought 프롬프트를 통한 추론 능력의 획기적 발전을 보여줍니다.","PaLM 540B의 자가 주의(self-attention)에서 모델 FLOPs 활용도(MFU)는 46.2%, 없을 때는 MFU 45.7%로 높은 학습 효율을 보여줍니다.","편향 및 독성 분석은 일부 편향 태스크에서 규모에 따른 개선을 보이지만 지속적인 고정관념 연관성과 프롬프트 의존적 독성이 남아 있습니다."]
RQ6table_headers: []
RQ7table_rows: []

주요 결과

PaLM 540B는 수백 개의 과제에서 최첨단 few-shot 결과를 달성하고, 많은 벤치마크에서 이전의 미세조정 SOTA를 능가합니다.
BIG-bench에서 규모에 따라 불연속적 개선이 나타나는 몇몇 과제가 있어 Emergent capabilities가 시사됩니다.
PaLM은 다국어 성능이 강하며, 비교적 적은 비영어 데이터 비율로 여러 과제에서 비영어 SOTA와의 격차를 메웁니다.
PaLM은 few-shot 설정에서 chain-of-thought 프롬프트를 통한 추론 능력의 획기적 발전을 보여줍니다.
PaLM 540B의 자가 주의(self-attention)에서 모델 FLOPs 활용도(MFU)는 46.2%, 없을 때는 MFU 45.7%로 높은 학습 효율을 보여줍니다.
편향 및 독성 분석은 규모에 따라 일부 편향 태스크에서 개선을 보이지만 지속적: stereotype associations 및 프롬프트 의존적 독성이 남아 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.