Skip to main content
QUICK REVIEW

[논문 리뷰] Few-shot Learning with Multilingual Language Models

Xi Victoria Lin, Todor Mihaylov|arXiv (Cornell University)|2021. 12. 20.
Topic Modeling인용 수 76
한 줄 요약

본 논문은 최대 7.5B 파라미터에 이르는 다국어 생성 언어 모델을 5,000억 토큰의 30개 언어 코퍼스에서 학습시키고, 다국어 태스크에서 제로샷 및 인컨텍스트 소수샷 학습을 연구하여 강력한 다국어 간 프롬프트를 보여주고 FLORES-101 방향성에서 다국어 모델의 소수샷 번역을 최상위 수준으로 입증하며, 다국어 사전학습과 함께 영어 성능이 하락할 수 있음을 지적합니다.

ABSTRACT

Large-scale generative language models such as GPT-3 are competitive few-shot learners. While these models are known to be able to jointly represent many different languages, their training data is dominated by English, potentially limiting their cross-lingual generalization. In this work, we train multilingual generative language models on a corpus covering a diverse set of languages, and study their few- and zero-shot learning capabilities in a wide range of tasks. Our largest model with 7.5 billion parameters sets new state of the art in few-shot learning in more than 20 representative languages, outperforming GPT-3 of comparable size in multilingual commonsense reasoning (with +7.4% absolute accuracy improvement in 0-shot settings and +9.4% in 4-shot settings) and natural language inference (+5.4% in each of 0-shot and 4-shot settings). On the FLORES-101 machine translation benchmark, our model outperforms GPT-3 on 171 out of 182 directions with 32 training examples, while surpassing the official supervised baseline in 45 directions. We conduct an in-depth analysis of different multilingual prompting approaches, showing in particular that strong few-shot learning performance across languages can be achieved via cross-lingual transfer through both templates and demonstration examples. Finally, we evaluate our models in social value tasks such as hate speech detection in five languages and find it has limitations similar to comparable sized GPT-3 models.

연구 동기 및 목표

  • 다국어 생성 언어 모델을 활용한 제로샷 및 인컨텍스트 소수샷 학습을 조사한다.
  • 다국어 태스크에 대한 교차언어 프롬프트와 교차언어 시연을 평가한다.
  • 영어 중심 기준과 비교하여 NLU, 번역 및 다국어 MT 벤치마크에서 다국어 모델을 평가한다.

제안 방법

  • 30개 언어에 걸친 500B토큰 다국어 코퍼스(CC100-XL)에서 564M, 1.7B, 2.9B, 7.5B의 네 개의 디코더-전용 인과 언어 모델을 공동 250k SentencePiece 어휘로 학습한다.
  • 매개변수 업데이트 없이 프롬프트를 사용하여 제로샷 및 소수샷 성능을 평가하며, 해당하는 경우 0-, 1-, 4-, 32-, 128샷 설정을 사용한다.
  • 모국어 프롬프트, 영어 템플릿, 번역 기반 프롬프트 및 교차언어 프롬프트를 포함한 프롬프트 전략을 탐구한다.
  • 입력 맥락에 다른 언어로 된 시연을 덧붙여 교차언어 시연을 조사한다.
  • 다국어 태스크와 FLORES-101 MT 방향에서 GPT-3(6.7B) 및 번역 기반 기준선(번역-테스트)과 비교한다.
  • 모델 크기와 샷 수를 달리하여 스케일링 법칙을 분석하고, 더 큰 다국어 모델이 인컨텍스트 시연을 어떻게 활용하는지 이해하기 위해 모델 크기와 샷 수를 조정하여 스케일링 법칙을 분석한다.

실험 결과

연구 질문

  • RQ1다양한 언어 집합에서 다국어 생성 언어 모델이 제로샷 및 인컨텍스트 소수샷 태스크에서 어떻게 성능을 발휘하는가?
  • RQ2영어 프롬프트와 비영어 시연 또는 교차언어 프롬프트가 강력한 다국어 인컨텍스트 학습을 달성할 수 있는가?
  • RQ3자원 수준이 서로 다른 언어들에서 교차언어 프롬프트와 교차언어 시연이 성능에 어떤 영향을 미치는가?
  • RQ4다국어 소수샷 학습과 교차언어 전이에서 모델 크기 확장이 미치는 영향은 무엇인가?
  • RQ5다국어 모델이 영어 중심 모델 및 번역 기준선과 비교하여 기계 번역 및 다국어 NLU 벤치마크에서 어떤 성능을 보이는가?

주요 결과

  • 7.5B 파라미터 XGLM 모델은 20개가 넘는 언어에서 다국어 NLU 및 추론 태스크에 대해 최첨단 소수샷 성능을 달성하며, 0샷 및 4샷 설정에서 두드러진 향상을 보인다.
  • FLORES-101 MT에서 XGLM-7.5B는 182개 방향 중 171개에서 32개의 학습 예제로 GPT-3 계열을 능가하고, 45개 방향에서 공식 감독 baselines를 능가한다.
  • 영어 템플릿을 활용한 교차언어 프롬프트는 종종 다양한 언어에서 강한 제로샷 및 소수샷 결과를 제공하며, 작업 및 언어 쌍에 따라 원어 템플릿을 능가하기도 한다.
  • 자원이 풍부한 언어의 시연은 자원이 적은 언어의 성능을 크게 높일 수 있지만, 이미 강한 대상 언어 프롬프트가 존재하면 이점이 감소한다.
  • GPT-3 6.7B와 비교하면 XGLM-7.5B는 일반적으로 비영어 태스크에서 우수한 다국어 성능을 보이나 영어 태스크에서는 영어 중심 모델 대비 하락할 수 있다.
  • 번역-테스트 기준선(영어로의 번역 후 GPT-3 추론)은 경쟁력이 있으며 흔히 강력해서 다국어 소수샷 환경에서 MT의 가치를 강조한다.
  • 모델 규모를 키우면 다국어 태스크와 교차언어 시연의 효과가 더 넓게 증가하지만 모든 태스크에서 일관되지는 않으며(예: PAWS-X에서 변동이 나타난다).
  • XGLM은 WMT FLORES-101 방향에서 경쟁력 있는 기계 번역 성능을 보여주며, 병렬 데이터가 없는 저자원 언어의 MT 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.