Skip to main content
QUICK REVIEW

[논문 리뷰] UL2: Unifying Language Learning Paradigms

Yi Tay, Mostafa Dehghani|arXiv (Cornell University)|2022. 05. 10.
Topic Modeling인용 수 97
한 줄 요약

UL2는 Mixture-of-Denoisers(MoD)와 모드 스위치를 활용한 통합 사전 학습 프레임워크를 제안하여 다양한 NLP 태스크에서 보편적 성능을 달성하고, 스케일이 최대 20B 매개변수까지 확장될 때 T5 및 GPT-유사 모델보다 우수한 성능을 발휘한다.

ABSTRACT

Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training models that are universally effective across datasets and setups. We begin by disentangling architectural archetypes with pre-training objectives -- two concepts that are commonly conflated. Next, we present a generalized & unified perspective for self-supervision in NLP and show how different pre-training objectives can be cast as one another and how interpolating between different objectives can be effective. We then propose Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse pre-training paradigms together. We furthermore introduce a notion of mode switching, wherein downstream fine-tuning is associated with specific pre-training schemes. We conduct extensive ablative experiments to compare multiple pre-training objectives and find that our method pushes the Pareto-frontier by outperforming T5 & GPT-like models across multiple diverse setups. By scaling our model up to 20B parameters, we achieve SOTA performance on 50 well-established supervised finetuning based NLP tasks. Our model also achieve strong results at in-context learning, outperforming 175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on one-shot summarization. On 0-shot MMLU, UL2 20B outperforms T0 and T5 models. UL2 20B also works well with chain-of-thought prompting and reasoning, making it an appealing choice for research into reasoning at a small to medium scale of 20B parameters. Finally, we apply FLAN instruction tuning to the UL2 20B model, achieving MMLU and Big-Bench scores competitive to FLAN-PaLM 62B. We release Flax-based T5X checkpoints for the UL2 20B & Flan-UL2 20B.

연구 동기 및 목표

  • 다양한 다운스트림 태스크와 설정에서 잘 수행하는 보편적으로 효과적인 사전 학습 언어 모델의 필요성을 동기부여한다.
  • 목적 설계가 백본 아키텍처보다 더 큰 영향을 미친다는 점을 보여주기 위해 아키텍처 선택과 사전 학습 목표를 분리한다.
  • 다양한 디노이징 목적을 혼합하고 강력한 태스크 간 전달을 가능하게 하는 Mixture-of-Denoisers (MoD)를 도입한다.
  • 다운스트림 파인튜닝과 특정 사전 학습 스킴을 연결하기 위한 모드 스위칭을 도입하여 적응성을 향상한다.
  • 20B 매개변수까지 확장 가능성을 입증하고 광범위 태스크에서 SOTA를 달성하며 제로/소샷 성능도 좋음을 보여준다.

제안 방법

  • 인코드-대상 디노이징 형식을 포괄적으로 정의하여 causal LM, Prefix LM, span corruption을 특수한 경우로 포함한다.
  • Mixture-of-Denoisers(R-Denoiser, S-Denoiser, X-Denoiser)를 도입하고 보편 모델을 학습하기 위해 7-덴오이저 혼합을 구성한다.
  • 전처리 중 Sentinel 토큰을 통해 R, S, X 디노이저 중에서 동적으로 선택하도록 모드 스위칭을 도입한다.
  • decoder-only와 encoder-decoder 백본을 모두 지원하는 아키텍처-중립적 입장을 유지하되 T5 류의 Transformer 백본을 유지한다.
  • C4 데이터를 사용한 32B 토큰, 500k 스텝으로 사전 학습하고 SuperGLUE, GEM, XSUM, ToTTo, SGD 등을 포함한 50개 이상의 태스크에서 평가하며 baselines(GPT-like, T5, UniLM)과 비교한다.
  • 약 20B 매개변수까지 확장하고 감독 학습 파인튜닝, 프롬프트 기반 학습, chain-of-thought prompting, FLAN-스타일 지시 튜닝에 미치는 영향을 평가한다.

실험 결과

연구 질문

  • RQ1단일 사전 학습 목표와 아키텍처가 분류형 파인튜닝과 프롬프트 기반 생성 태스크 모두에서 경쟁력 있는 성능을 낼 수 있는가?
  • RQ2다양한 디노이징 목표가 서로를 보완하는가, 그리고 혼합(MoD)이 표준 단일 목표 사전 학습보다 우수한가?
  • RQ3모드 스위칭이 다운스트림 파인튜닝을 적절한 사전 학습 스킴과 효과적으로 정렬하여 태스크 전반의 성능을 향상시키는가?
  • RQ4広 범위 NLP 벤치마크에서 UL2를 20B 매개변수로 확장했을 때 성능 향상은 얼마인가?
  • RQ5제로/소샷 설정 및 지시 학습과 비교하여 UL2는 최첨단 모델에 비해 어떤 면에서 우수한가?

주요 결과

  • UL2는 감독 학습 및 원샷 설정에서 9/9 태스크에서 T5 유사 및 GPT 유사 기준선보다 우수하다.
  • MoD와 모드 스위칭은 제로샷과 미세튜닝 성능 사이의 파레토 효율적 균형을 가능하게 한다.
  • 약 20B 매개변수에서 UL2는 생성, 이해, 추론, 접지, 검색 등 광범위한 태스크에서 SOTA를 달성한다.
  • UL2 제로샷 SuperGLUE는 제로샷에서 GPT-175B를 능가한다; 원샷 요약은 PaLM/LaMDA와 비슷한 계산으로 매칭 또는 상회한다.
  • FLAN 지시 튜닝을 통한 UL2는 MMLU와 Big-Bench 결과를 FLAN-PaLM 62B와 경쟁력 있게 만들며; 체인-오브-생각 prompting은 20B 스케일에서 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.