Skip to main content
QUICK REVIEW

[논문 리뷰] AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

Saleh Soltan, Shankar Ananthakrishnan|arXiv (Cornell University)|2022. 08. 02.
Topic Modeling인용 수 38
한 줄 요약

AlexaTM 20B는 20B 다국어 seq2seq 모델로, denoising과 CLM에서 사전학습되었으며, 소수-shot 학습을 강하게 보여주고 요약, 기계 번역, 다국어 NLP 과제에서 더 큰 디코더-전용 모델보다 우수하다.

ABSTRACT

In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20 billion parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B) and show that it achieves state-of-the-art (SOTA) performance on 1-shot summarization tasks, outperforming a much larger 540B PaLM decoder model. AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for low-resource languages, across almost all language pairs supported by the model (Arabic, English, French, German, Hindi, Italian, Japanese, Marathi, Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2 datasets and provides SOTA performance on multilingual tasks such as XNLI, XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case for seq2seq models as a powerful alternative to decoder-only models for Large-scale Language Model (LLM) training.

연구 동기 및 목표

  • 최대 규모의 다국어 seq2seq 모델을 만들어 소-shot in-context 학습이 가능하도록 동기를 부여하고 구축한다.
  • seq2seq 모델이 요약과 같은 긴 맥락 작업에서 더 큰 디코더-전용 LLM보다 우수하다는 것을 보여준다.
  • 특히 저자원 언어를 포함한 많은 언어에서 번역에서 강력한 원샷 및 제로샷 성능을 입증한다.
  • 제로샷 다국어 NLP 작업을 평가하고 기존 SOTA 모델과 비교한다.
  • 모델과 관련된 위험을 이해하기 위해 기억화, 공정성 및 편향을 평가한다.

제안 방법

  • 12개 언어에 걸친 denoising과 인과 언어 모델링(CLМ) 작업의 혼합으로 AlexaTM 20B를 사전 학습한다.
  • 스케일에서 안정성을 높이기 위해 Pre-LN이 있는 표준 Transformer 아키텍처를 사용한다.
  • Wikipedia와 mC4 데이터를 사용하여 1조 토큰 업데이트로 학습하며, 1024-토큰 시퀀스와 150K unigram SentencePiece 토크나이저를 사용한다.
  • 특별한 [CLM] 토큰으로 입력의 연속성을 가능하게 하는 CLM 목표를 포함한다.
  • 초기화에 10B 인코더 사전학습 모델을 활용하고 분산 학습을 위해 DeepSpeed ZeRO-3을 사용한다.
  • Fusion-in-Decoder(FiD)을 포함한 denoising 및 CLM 모드를 통해 맥락 학습을 활용하여 디코더 어텐션을 위한 여러 샷을 인코딩한다.

실험 결과

연구 질문

  • RQ1대규모 다국어 seq2seq 모델이 제로-shot 인-context 학습을 다양한 생성 NLP 작업에 제공할 수 있는가?
  • RQ2다국어 seq2seq 모델은 요약 및 다중 언어 간 번역과 같은 긴 맥락 작업에서 더 큰 디코더-전용 LLM과 어떻게 비교되는가?
  • RQ3표준 다국어 NLP 벤치마크 및 영어 작업에서 AlexaTM 20B의 제로샷 능력은 기존 SOTA 모델에 비해 어떤가?
  • RQ4다국어 설정에서 seq2seq 사전학습이 저자원 언어의 번역 품질을 향상시키는가?
  • RQ520B 다국어 seq2seq 모델의 기억화, 공정성 및 편향 특성은 어떤가?

주요 결과

  • AlexaTM 20B는 1샷 요약에서 SOTA를 달성하여 XSUM 및 MLSum 데이터셋에서 540B PaLM 디코더 모델보다 우수하다.
  • AlexaTM 20B는 1샷 기계 번역에서 Flores-101 언어 쌍에서 SOTA를 달성했고, 마라티(Marathi), 타밀(Tamil), 텔루구(Telugu)에서 눈에 띄는 이점을 나타낸다.
  • 제로샷 설정에서 AlexaTM 20B는 SuperGLUE와 SQuADv2에서 GPT-3(175B)를 능가하고 XNLI, XCOPA, Paws-X, XWinograd와 같은 다국어 작업에서 SOTA를 달성한다.
  • 다국어 NLP 작업 전반에 걸쳐 AlexaTM 20B는 강력한 제로샷 성능을 제공하며 여러 벤치마크에서 종종 XGLM 7.5B를 능가한다.
  • 영어 작업에서 AlexaTM 20B는 GPT-3 175B를 능가하고 SQuADv2 및 대부분의 SuperGLUE 작업에서 PaLM 540B와 경쟁력이 있으며, 가장 큰 디코더-전용 모델보다 적은 파라미터를 필요로 한다.
  • 기억화 분석은 더 긴 맥락에서 기억화가 감소함을 시사하고, 편향/독성 분석은 제로샷에서 Winogender에 대해 최첨단 결과를 보이며, 독성은 프롬프트 내용에 의해 좌우된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.