Skip to main content
QUICK REVIEW

[논문 리뷰] Multitask Prompted Training Enables Zero-Shot Task Generalization

Victor Sanh, Albert Webson|arXiv (Cornell University)|2021. 10. 15.
Topic Modeling참고 문헌 132인용 수 561
한 줄 요약

이 논문은 프롬프트 작업의 대규모 다중 작업 세트에 대해 모델을 명시적으로 학습시키면 강력한 제로샷 일반화가 가능해지며, 종종 더 큰 모델보다 보류된 작업에서 더 나은 성능을 보인다.

ABSTRACT

Large language models have recently been shown to attain reasonable zero-shot generalization on a diverse set of tasks (Brown et al., 2020). It has been hypothesized that this is a consequence of implicit multitask learning in language models' pretraining (Radford et al., 2019). Can zero-shot generalization instead be directly induced by explicit multitask learning? To test this question at scale, we develop a system for easily mapping any natural language tasks into a human-readable prompted form. We convert a large set of supervised datasets, each with multiple prompts with diverse wording. These prompted datasets allow for benchmarking the ability of a model to perform completely held-out tasks. We fine-tune a pretrained encoder-decoder model (Raffel et al., 2020; Lester et al., 2021) on this multitask mixture covering a wide variety of tasks. The model attains strong zero-shot performance on several standard datasets, often outperforming models up to 16x its size. Further, our approach attains strong performance on a subset of tasks from the BIG-bench benchmark, outperforming models up to 6x its size. All trained models are available at https://github.com/bigscience-workshop/t-zero and all prompts are available at https://github.com/bigscience-workshop/promptsource.

연구 동기 및 목표

  • 명시적 다중 작업 프롏프트 학습을 통해 제로샷 일반화를 동기 부여한다.
  • 공개 작업에서 크고 다양한 프롬프트 데이터셋 혼합을 구성한다.
  • 보류된 작업과 BIG-bench 작업에서 제로샷 성능을 평가한다.
  • 프롬프트 문구 다양성에 대한 강인성을 분석하기 위해 프롬프트 및 데이터세트를 변화시킨다.

제안 방법

  • 멀티태스크 혼합된 데이터 세트에 대해 인코더-디코더 모델(T0)을 미세조정한다.
  • 간단한 템플레이팅 언어를 사용하여 데이터세트를 여러 템플릿의 입력-타깃 프롬프트로 변환한다.
  • Public Pool of Prompts(P3)에서 프롬프트를 구성하여 프롬프트 다양성을 극대화한다.
  • 다양한 데이터세트와 프롬프트로 증가하는 T0, T0+, T0++ 변형을 훈련한다.
  • 입력/타깃 시퀀스를 1024/256 토큰으로 제한하고 학습을 위한 패킹을 사용한다.
  • 프롬프트 간 중간값 성능을 보고, 프롬프트 간 사분위 범위를 사용하여 강인성을 측정한다.

실험 결과

연구 질문

  • RQ1다중 작업 프롏프트 학습이 보류된 작업에 대한 제로샷 일반화를 향상시키는가?
  • RQ2더 넓은 범위의 프롬프트에 대한 학습이 프롬프트 문구에 대한 강인성을 향상시키는가?
  • RQ3제안된 방법이 보류된 작업에서 GPT-3 및 BIG-bench 기준선과 어떻게 비교되는가?

주요 결과

  • T0는 약 16× 더 작은 모델임에도 불구하고 보류된 11개 데이터세트 중 9개에서 GPT-3와 일치하거나 이를 능가한다.
  • T0는 BIG-bench의 14개 작업 중 13개에서 대규모 베이스라인보다 개선한다.
  • 프롬프트를 데이터세트당 더 많이 학습시키면 중간값 성능이 일관되게 증가하고 변동성이 감소한다.
  • 더 많은 데이터세트에 대해 학습하는 경향은 보류된 작업에서 중간값 성능을 향상시키는 경향이 있다.
  • 프롬프트 다양성(길이 및 스타일)은 강인성과 일반화에 기여한다.
  • T0 변형은 일반적으로 FLAN을 능가하는 경향이 있으며 훨씬 작으면서도.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.