QUICK REVIEW

[논문 리뷰] Multitask Prompted Training Enables Zero-Shot Task Generalization

Victor Sanh, Albert Webson|arXiv (Cornell University)|2021. 10. 15.

Topic Modeling참고 문헌 132인용 수 561

한 줄 요약

이 논문은 프롬프트 작업의 대규모 다중 작업 세트에 대해 모델을 명시적으로 학습시키면 강력한 제로샷 일반화가 가능해지며, 종종 더 큰 모델보다 보류된 작업에서 더 나은 성능을 보인다.

ABSTRACT

Large language models have recently been shown to attain reasonable zero-shot generalization on a diverse set of tasks (Brown et al., 2020). It has been hypothesized that this is a consequence of implicit multitask learning in language models' pretraining (Radford et al., 2019). Can zero-shot generalization instead be directly induced by explicit multitask learning? To test this question at scale, we develop a system for easily mapping any natural language tasks into a human-readable prompted form. We convert a large set of supervised datasets, each with multiple prompts with diverse wording. These prompted datasets allow for benchmarking the ability of a model to perform completely held-out tasks. We fine-tune a pretrained encoder-decoder model (Raffel et al., 2020; Lester et al., 2021) on this multitask mixture covering a wide variety of tasks. The model attains strong zero-shot performance on several standard datasets, often outperforming models up to 16x its size. Further, our approach attains strong performance on a subset of tasks from the BIG-bench benchmark, outperforming models up to 6x its size. All trained models are available at https://github.com/bigscience-workshop/t-zero and all prompts are available at https://github.com/bigscience-workshop/promptsource.

연구 동기 및 목표

명시적 다중 작업 프롏프트 학습을 통해 제로샷 일반화를 동기 부여한다.
공개 작업에서 크고 다양한 프롬프트 데이터셋 혼합을 구성한다.
보류된 작업과 BIG-bench 작업에서 제로샷 성능을 평가한다.
프롬프트 문구 다양성에 대한 강인성을 분석하기 위해 프롬프트 및 데이터세트를 변화시킨다.

제안 방법

멀티태스크 혼합된 데이터 세트에 대해 인코더-디코더 모델(T0)을 미세조정한다.
간단한 템플레이팅 언어를 사용하여 데이터세트를 여러 템플릿의 입력-타깃 프롬프트로 변환한다.
Public Pool of Prompts(P3)에서 프롬프트를 구성하여 프롬프트 다양성을 극대화한다.
다양한 데이터세트와 프롬프트로 증가하는 T0, T0+, T0++ 변형을 훈련한다.
입력/타깃 시퀀스를 1024/256 토큰으로 제한하고 학습을 위한 패킹을 사용한다.
프롬프트 간 중간값 성능을 보고, 프롬프트 간 사분위 범위를 사용하여 강인성을 측정한다.

실험 결과

연구 질문

RQ1다중 작업 프롏프트 학습이 보류된 작업에 대한 제로샷 일반화를 향상시키는가?
RQ2더 넓은 범위의 프롬프트에 대한 학습이 프롬프트 문구에 대한 강인성을 향상시키는가?
RQ3제안된 방법이 보류된 작업에서 GPT-3 및 BIG-bench 기준선과 어떻게 비교되는가?

주요 결과

T0는 약 16× 더 작은 모델임에도 불구하고 보류된 11개 데이터세트 중 9개에서 GPT-3와 일치하거나 이를 능가한다.
T0는 BIG-bench의 14개 작업 중 13개에서 대규모 베이스라인보다 개선한다.
프롬프트를 데이터세트당 더 많이 학습시키면 중간값 성능이 일관되게 증가하고 변동성이 감소한다.
더 많은 데이터세트에 대해 학습하는 경향은 보류된 작업에서 중간값 성능을 향상시키는 경향이 있다.
프롬프트 다양성(길이 및 스타일)은 강인성과 일반화에 기여한다.
T0 변형은 일반적으로 FLAN을 능가하는 경향이 있으며 훨씬 작으면서도.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.