QUICK REVIEW

[논문 리뷰] mT5: A massively multilingual pre-trained text-to-text transformer

Linting Xue, Noah Constant|arXiv (Cornell University)|2020. 10. 22.

Topic Modeling참고 문헌 49인용 수 601

한 줄 요약

mT5는 T5를 101개 언어로 확장하고 다국어 사전 학습 데이터(mC4)를 사용하며 다국어 벤치마크에서 SOTA를 보이고, 도메인 보존 파인튜닝 기법으로 제로샷 생성에서의 우발적 번역 문제를 해결한다.

ABSTRACT

The recent "Text-to-Text Transfer Transformer" (T5) leveraged a unified text-to-text format and scale to attain state-of-the-art results on a wide variety of English-language NLP tasks. In this paper, we introduce mT5, a multilingual variant of T5 that was pre-trained on a new Common Crawl-based dataset covering 101 languages. We detail the design and modified training of mT5 and demonstrate its state-of-the-art performance on many multilingual benchmarks. We also describe a simple technique to prevent "accidental translation" in the zero-shot setting, where a generative model chooses to (partially) translate its prediction into the wrong language. All of the code and model checkpoints used in this work are publicly available.

연구 동기 및 목표

원래 레시피로부터의 편차를 최소화한 대규모 다국어 T5 변형을 개발한다.
Common Crawl 데이터에서 101개 언어를 다루는 다국어 프리트레이닝 데이터셋(mC4)을 생성한다.
분류, QA, NER를 위한 xtreme 다국어 벤치마크에서 mT5를 평가한다.
도메인 보존 파인튜닝을 통해 제로샷 생성에서의 우발적 번역을 조사하고 완화한다.
공동체에 오픈소스 코드와 프리트레이드 체크포인트를 제공한다.

제안 방법

T5.1.1 레시피를 확장한다(GeGLU 활성화, 더 큰 d_model과 d_ff, 프리트레이닝 동안 드롭아웃 없음).
언어 탐지 및 필터링으로 Common Crawl 데이터를 이용해 101개 언어를 포함시키고 각 언어의 신뢰도 임계값 70%와 10,000+ 페이지를 포함하도록 mC4를 구축한다.
프리트레이닝 중 다국어 데이터를 샘플링할 때 p(L) ∝ |L|^α를 사용해 저자원 언어를 높이고 (α는 0.3으로 조정).
대형 스크립트에 대해 언어별 커버리지와 바이트 대체를 갖춘 250k SentencePiece 어휘를 사용한다.
모든 작업을 텍스트-투-텍스트 형식으로 변환하여 xtreme 작업에 대해 미세조정하고 평가한다; 제로샷, 번역-학습(translate-train), 및 현지어 다중작업 설정을 탐구한다.
제로샷 우발적 번역을 도메인 적응 프리트레이닝(미세튜닝 중 mC4 혼합)으로 해결하고 언어 샘플링 편향을 줄인다(α를 0.1로 낮춤).

실험 결과

연구 질문

RQ1광범위한 다국어 코퍼스에서 학습된 T5 스타일의 다국어 모델이 여러 언어에서 최첨단 성능을 달성할 수 있는가?
RQ2모델 용량이 교차언어 전이와 번역된 데이터 또는 현지어 데이터의 필요성에 어떤 영향을 미치는가?
RQ3제로샷 생성에서 우발적 번역이 발생하는 메커니즘은 무엇이며,multilingual 프리트레이닝 데이터를 파인튜닝에 혼합하는 것이 이를 완화할 수 있는가?
RQ4프리트레이닝 중 언어 샘플링이 자원 많은 언어와 자원 적은 언어의 성능에 어떤 영향을 미치는가?

주요 결과

mT5-XXL은 분류 및 QA 벤치마크에서 최첨단 성능을 달성하고 NER에서 SOTA에 근접한다.
xtreme 작업에서 translate-train은 mT5로 기존 모델을 앞지르고, 제로샷 성능은 모델 크기가 커질수록 translate-train에 근접한다.
더 큰 mT5 모델은 SQuAD에서 영어 전용 T5와의 격차를 줄여, 용량이 교차언어 간섭을 완화할 수 있음을 시사한다.
작은 양의 다국어 프리트레이닝 데이터를 파인튜닝에 혼합하면, 제로샷 XQuAD에서 소형 모델의 불법적/우발적 번역 예측을 현저히 줄인다.
데이터 수집 중 행 길이 필터링은 XNLI 정확도를 크게 향상시킨다(+실험에서 2포인트).
α를 증가시켜 고자원 언어를 강화하면 일부 언어에 도움이 되지만 많은 저자원 언어에 해를 끼친다; α를 거의 균일에 가깝게 낮추면 이 편향이 줄어든다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.