QUICK REVIEW

[논문 리뷰] UL2: Unifying Language Learning Paradigms

Yi Tay, Mostafa Dehghani|arXiv (Cornell University)|2022. 05. 10.

Topic Modeling인용 수 97

한 줄 요약

UL2는 Mixture-of-Denoisers(MoD)와 모드 스위치를 활용한 통합 사전 학습 프레임워크를 제안하여 다양한 NLP 태스크에서 보편적 성능을 달성하고, 스케일이 최대 20B 매개변수까지 확장될 때 T5 및 GPT-유사 모델보다 우수한 성능을 발휘한다.

ABSTRACT

Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training models that are universally effective across datasets and setups. We begin by disentangling architectural archetypes with pre-training objectives -- two concepts that are commonly conflated. Next, we present a generalized & unified perspective for self-supervision in NLP and show how different pre-training objectives can be cast as one another and how interpolating between different objectives can be effective. We then propose Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse pre-training paradigms together. We furthermore introduce a notion of mode switching, wherein downstream fine-tuning is associated with specific pre-training schemes. We conduct extensive ablative experiments to compare multiple pre-training objectives and find that our method pushes the Pareto-frontier by outperforming T5 & GPT-like models across multiple diverse setups. By scaling our model up to 20B parameters, we achieve SOTA performance on 50 well-established supervised finetuning based NLP tasks. Our model also achieve strong results at in-context learning, outperforming 175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on one-shot summarization. On 0-shot MMLU, UL2 20B outperforms T0 and T5 models. UL2 20B also works well with chain-of-thought prompting and reasoning, making it an appealing choice for research into reasoning at a small to medium scale of 20B parameters. Finally, we apply FLAN instruction tuning to the UL2 20B model, achieving MMLU and Big-Bench scores competitive to FLAN-PaLM 62B. We release Flax-based T5X checkpoints for the UL2 20B & Flan-UL2 20B.

연구 동기 및 목표

다양한 다운스트림 태스크와 설정에서 잘 수행하는 보편적으로 효과적인 사전 학습 언어 모델의 필요성을 동기부여한다.
목적 설계가 백본 아키텍처보다 더 큰 영향을 미친다는 점을 보여주기 위해 아키텍처 선택과 사전 학습 목표를 분리한다.
다양한 디노이징 목적을 혼합하고 강력한 태스크 간 전달을 가능하게 하는 Mixture-of-Denoisers (MoD)를 도입한다.
다운스트림 파인튜닝과 특정 사전 학습 스킴을 연결하기 위한 모드 스위칭을 도입하여 적응성을 향상한다.
20B 매개변수까지 확장 가능성을 입증하고 광범위 태스크에서 SOTA를 달성하며 제로/소샷 성능도 좋음을 보여준다.

제안 방법

인코드-대상 디노이징 형식을 포괄적으로 정의하여 causal LM, Prefix LM, span corruption을 특수한 경우로 포함한다.
Mixture-of-Denoisers(R-Denoiser, S-Denoiser, X-Denoiser)를 도입하고 보편 모델을 학습하기 위해 7-덴오이저 혼합을 구성한다.
전처리 중 Sentinel 토큰을 통해 R, S, X 디노이저 중에서 동적으로 선택하도록 모드 스위칭을 도입한다.
decoder-only와 encoder-decoder 백본을 모두 지원하는 아키텍처-중립적 입장을 유지하되 T5 류의 Transformer 백본을 유지한다.
C4 데이터를 사용한 32B 토큰, 500k 스텝으로 사전 학습하고 SuperGLUE, GEM, XSUM, ToTTo, SGD 등을 포함한 50개 이상의 태스크에서 평가하며 baselines(GPT-like, T5, UniLM)과 비교한다.
약 20B 매개변수까지 확장하고 감독 학습 파인튜닝, 프롬프트 기반 학습, chain-of-thought prompting, FLAN-스타일 지시 튜닝에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1단일 사전 학습 목표와 아키텍처가 분류형 파인튜닝과 프롬프트 기반 생성 태스크 모두에서 경쟁력 있는 성능을 낼 수 있는가?
RQ2다양한 디노이징 목표가 서로를 보완하는가, 그리고 혼합(MoD)이 표준 단일 목표 사전 학습보다 우수한가?
RQ3모드 스위칭이 다운스트림 파인튜닝을 적절한 사전 학습 스킴과 효과적으로 정렬하여 태스크 전반의 성능을 향상시키는가?
RQ4広 범위 NLP 벤치마크에서 UL2를 20B 매개변수로 확장했을 때 성능 향상은 얼마인가?
RQ5제로/소샷 설정 및 지시 학습과 비교하여 UL2는 최첨단 모델에 비해 어떤 면에서 우수한가?

주요 결과

UL2는 감독 학습 및 원샷 설정에서 9/9 태스크에서 T5 유사 및 GPT 유사 기준선보다 우수하다.
MoD와 모드 스위칭은 제로샷과 미세튜닝 성능 사이의 파레토 효율적 균형을 가능하게 한다.
약 20B 매개변수에서 UL2는 생성, 이해, 추론, 접지, 검색 등 광범위한 태스크에서 SOTA를 달성한다.
UL2 제로샷 SuperGLUE는 제로샷에서 GPT-175B를 능가한다; 원샷 요약은 PaLM/LaMDA와 비슷한 계산으로 매칭 또는 상회한다.
FLAN 지시 튜닝을 통한 UL2는 MMLU와 Big-Bench 결과를 FLAN-PaLM 62B와 경쟁력 있게 만들며; 체인-오브-생각 prompting은 20B 스케일에서 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.