[논문 리뷰] What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
이 논문은 대형 언어 모델의 아키텍처와 사전학습 목표 조합을 체계적으로 비교하여, 전체 LM 사전학습을 활용한 디코더-전용 모델이 멀티태스크 미세조정 전에는 뛰어나고, MLM으로 인한 인코더-디코더 모델이 멀티태스크 미세조정 후에 뛰어나며, 아키텍처 간의 적응 경로를 입증한다.
Large pretrained Transformer language models have been shown to exhibit zero-shot generalization, i.e. they can perform a wide variety of tasks that they were not explicitly trained on. However, the architectures and pretraining objectives used across state-of-the-art models differ significantly, and there has been limited systematic comparison of these factors. In this work, we present a large-scale evaluation of modeling choices and their impact on zero-shot generalization. In particular, we focus on text-to-text models and experiment with three model architectures (causal/non-causal decoder-only and encoder-decoder), trained with two different pretraining objectives (autoregressive and masked language modeling), and evaluated with and without multitask prompted finetuning. We train models with over 5 billion parameters for more than 170 billion tokens, thereby increasing the likelihood that our conclusions will transfer to even larger scales. Our experiments show that causal decoder-only models trained on an autoregressive language modeling objective exhibit the strongest zero-shot generalization after purely unsupervised pretraining. However, models with non-causal visibility on their input trained with a masked language modeling objective followed by multitask finetuning perform the best among our experiments. We therefore consider the adaptation of pretrained models across architectures and objectives. We find that pretrained non-causal decoder models can be adapted into performant generative causal decoder models, using autoregressive language modeling as a downstream task. Furthermore, we find that pretrained causal decoder models can be efficiently adapted into non-causal decoder models, ultimately achieving competitive performance after multitask finetuning. Code and checkpoints are available at https://github.com/bigscience-workshop/architecture-objective.
연구 동기 및 목표
- 무감독(pretraining)으로의 학습에서 아키텍처(인과적 디코더-전용, 비인과적 디코더, 인코더-디코더)가 제로샷 일반화에 어떤 영향을 미치는지 평가한다.
- 아키텍처별 FLM, PLM, MLM 사전학습 목표가 제로샷 작업에 미치는 영향을 평가한다.
- 멀티태스크 파인튜닝이 제로샷 일반화에 대한 선호하는 아키텍처/목표를 바꿔 놓는지 조사한다.
- 효율적으로 강점을 전이하기 위한 아키텍처/목표 간의 적응을 탐구한다.
- 생성형 프롬프트에 최적화된 LLM 설계와 멀티태스크 파인튜닝에 대한 실행 가능한 지침을 제공한다.
제안 방법
- 대략 5B 매개변수의 <아키텍처, 목표> 쌍 여섯 개를 체계적으로 사전학습한다(ED: 11B, CD: 4.8B). 168B 토큰에서.
- 아키텍처별 FLM, PLM, MLM 목표를 멀티태스크 파인튜닝(MT-F) 여부에 따라 비교한다.
- 적응 기법 적용: LM-A(MLM→PLM/FLM) 및 비인과적 MLM 적응을 통해 아키텍처 유형 간 변환.
- 13B-토큰 T0 스타일 혼합으로 MT-F를 수행하고 T0-Eval 및 EAI-Eval 프롬프트의 30개 작업에서 제로샷을 평가한다.
- 체크포인트에서 42B, 84B, 168B 토큰에서 결과를 보고한다.
- 두 개의 제로샷 벤치마크(T0-Eval 및 EAI-Eval)를 사용하고 작업 간 일관된 프롬프팅을 적용한다.
실험 결과
연구 질문
- RQ1비지도 사전학습 직후 어떤 아키텍처–목표 쌍이 가장 강한 제로샷 일반화를 보이는가?
- RQ2멀티태스크 파인튜닝이 제로샷 일반화를 위한 선호하는 아키텍처 및/또는 목표를 어떻게 바꾸는가?
- RQ3전체 재학습 없이 적응을 통해 아키텍처/목표 간 격차를 효과적으로 메울 수 있는가?
- RQ4다른 프롬프트/작업 벤치마크(T0-Eval vs. EAI-Eval)가 특정 아키텍처 쪽으로 모델 순위를 편향시키는가?
- RQ5생성적 프롬프트에 최적화된 LLM 설계와 멀티태스크 파인튜닝을 위한 실행 가능한 지침은 무엇인가?
주요 결과
| Model | EAI-Eval | T0-Eval | Notes |
|---|---|---|---|
| Causal decoder | 44.2 | 42.4 | Best for EAI-Eval among FLM-trained after pretraining |
| Non-causal decoder | 43.5 | 41.8 | Second best on EAI-Eval after FLM/PLM post-pretraining |
| Encoder-decoder | 39.9 | 41.7 | Strong baseline; encoder-decoder MLM excels after MT-F |
| Random baseline | 32.9 | 41.7 | Random performance baseline for reference |
- 비지도 사전학습만 실시한 후에는 전체 언어 모델링을 사용하는 인과적 디코더-전용 모델이 두 벤치마크에서 최고의 제로샷 일반화를 달성한다.
- 멀티태스크 파인튜닝 후에는 MLM 사전학습을 가진 인코더-디코더 모델이 타 모델을 능가하며, MT-F가 인코더-디코더의 MLM 선호로 이동한다는 것을 시사한다.
- MT-F 후 MLM으로 사전학습된 인코더-디코더 모델이 다른 구성보다 우수하며, 일부 벤치마크에서는 비인과적 MLM이 근소하게 뒤를 잇는다.
- 적응 방법은 수렴 속도를 높이고 아키텍처 간 전이 효과를 가능하게 한다. 예를 들어 MLM에 적응된 비인과적 디코더를 인과적 디코더로 변환하면 MLM 및 MT-F 성능이 향상된다; 인과적에서 비인과적으로의 적응도 역시 이롭다.
- 프롬프트와 작업 세트가 제로샷 성능에 영향을 주며, EAI-Eval 프롬프트는 일반적으로 평균 T0 프롬프트보다 더 높은 성능을 보이고, 아키텍처 간 차이는 작업에 따라 다르다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.