Skip to main content
QUICK REVIEW

[논문 리뷰] mT5: A massively multilingual pre-trained text-to-text transformer

Linting Xue, Noah Constant|arXiv (Cornell University)|2020. 10. 22.
Topic Modeling참고 문헌 49인용 수 601
한 줄 요약

mT5는 T5를 101개 언어로 확장하고 다국어 사전 학습 데이터(mC4)를 사용하며 다국어 벤치마크에서 SOTA를 보이고, 도메인 보존 파인튜닝 기법으로 제로샷 생성에서의 우발적 번역 문제를 해결한다.

ABSTRACT

The recent "Text-to-Text Transfer Transformer" (T5) leveraged a unified text-to-text format and scale to attain state-of-the-art results on a wide variety of English-language NLP tasks. In this paper, we introduce mT5, a multilingual variant of T5 that was pre-trained on a new Common Crawl-based dataset covering 101 languages. We detail the design and modified training of mT5 and demonstrate its state-of-the-art performance on many multilingual benchmarks. We also describe a simple technique to prevent "accidental translation" in the zero-shot setting, where a generative model chooses to (partially) translate its prediction into the wrong language. All of the code and model checkpoints used in this work are publicly available.

연구 동기 및 목표

  • 원래 레시피로부터의 편차를 최소화한 대규모 다국어 T5 변형을 개발한다.
  • Common Crawl 데이터에서 101개 언어를 다루는 다국어 프리트레이닝 데이터셋(mC4)을 생성한다.
  • 분류, QA, NER를 위한 xtreme 다국어 벤치마크에서 mT5를 평가한다.
  • 도메인 보존 파인튜닝을 통해 제로샷 생성에서의 우발적 번역을 조사하고 완화한다.
  • 공동체에 오픈소스 코드와 프리트레이드 체크포인트를 제공한다.

제안 방법

  • T5.1.1 레시피를 확장한다(GeGLU 활성화, 더 큰 d_model과 d_ff, 프리트레이닝 동안 드롭아웃 없음).
  • 언어 탐지 및 필터링으로 Common Crawl 데이터를 이용해 101개 언어를 포함시키고 각 언어의 신뢰도 임계값 70%와 10,000+ 페이지를 포함하도록 mC4를 구축한다.
  • 프리트레이닝 중 다국어 데이터를 샘플링할 때 p(L) ∝ |L|^α를 사용해 저자원 언어를 높이고 (α는 0.3으로 조정).
  • 대형 스크립트에 대해 언어별 커버리지와 바이트 대체를 갖춘 250k SentencePiece 어휘를 사용한다.
  • 모든 작업을 텍스트-투-텍스트 형식으로 변환하여 xtreme 작업에 대해 미세조정하고 평가한다; 제로샷, 번역-학습(translate-train), 및 현지어 다중작업 설정을 탐구한다.
  • 제로샷 우발적 번역을 도메인 적응 프리트레이닝(미세튜닝 중 mC4 혼합)으로 해결하고 언어 샘플링 편향을 줄인다(α를 0.1로 낮춤).

실험 결과

연구 질문

  • RQ1광범위한 다국어 코퍼스에서 학습된 T5 스타일의 다국어 모델이 여러 언어에서 최첨단 성능을 달성할 수 있는가?
  • RQ2모델 용량이 교차언어 전이와 번역된 데이터 또는 현지어 데이터의 필요성에 어떤 영향을 미치는가?
  • RQ3제로샷 생성에서 우발적 번역이 발생하는 메커니즘은 무엇이며,multilingual 프리트레이닝 데이터를 파인튜닝에 혼합하는 것이 이를 완화할 수 있는가?
  • RQ4프리트레이닝 중 언어 샘플링이 자원 많은 언어와 자원 적은 언어의 성능에 어떤 영향을 미치는가?

주요 결과

  • mT5-XXL은 분류 및 QA 벤치마크에서 최첨단 성능을 달성하고 NER에서 SOTA에 근접한다.
  • xtreme 작업에서 translate-train은 mT5로 기존 모델을 앞지르고, 제로샷 성능은 모델 크기가 커질수록 translate-train에 근접한다.
  • 더 큰 mT5 모델은 SQuAD에서 영어 전용 T5와의 격차를 줄여, 용량이 교차언어 간섭을 완화할 수 있음을 시사한다.
  • 작은 양의 다국어 프리트레이닝 데이터를 파인튜닝에 혼합하면, 제로샷 XQuAD에서 소형 모델의 불법적/우발적 번역 예측을 현저히 줄인다.
  • 데이터 수집 중 행 길이 필터링은 XNLI 정확도를 크게 향상시킨다(+실험에서 2포인트).
  • α를 증가시켜 고자원 언어를 강화하면 일부 언어에 도움이 되지만 많은 저자원 언어에 해를 끼친다; α를 거의 균일에 가깝게 낮추면 이 편향이 줄어든다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.