Skip to main content
QUICK REVIEW

[논문 리뷰] Scaling Instruction-Finetuned Language Models

Hyung Won Chung, Le Hou|arXiv (Cornell University)|2022. 10. 20.
Topic Modeling인용 수 1,182
한 줄 요약

이 논문은 지시 기반 파인튜닝이 더 많은 작업과 더 큰 모델에서 스케일링되며, 체인-오브-생각(CoT) 데이터를 포함하는 것이 추론 능력을 크게 향상시켜 최첨단 결과를 달성하고(예: Flan-PaLM 540B) 개방형 끝-생성 품질도 강하다는 것을 보여준다.

ABSTRACT

Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.

연구 동기 및 목표

  • 지시 기반 파인튜닝을 통해 unseen 작업에 대한 일반화를 촉진한다.
  • 모델 크기별로 파인튜닝 작업 수가 성능에 미치는 영향을 조사한다.
  • 추론 과제에서 CoT 데이터의 파인튜닝 반영 영향력 평가
  • PaLM, T5, U-PaLM 계열 간에 지시 기반 파인튜닝의 크로스-모델 적용 가능성을 입증한다.
  • 지시 파인튜닝된 모델의 사용성 및 책임 있는 AI 측면을 평가한다.

제안 방법

  • 다수의 모델 계열(T5, PaLM, U-PaLM)을 Muffin, T0-SF, NIV2, 및 CoT 데이터의 1,836개 작업에 대해 지시 튜닝 파인튜닝 한다.
  • 패킹을 사용하여 여러 학습 예제를 끝 토큰으로 하나의 시퀀스로 결합한다.
  • 입력에 지시 템플릿을 앞에 추가하고 경계에 마스킹을 적용하며; Adafactor 옵티마이저와 일정한 학습률 스케줄을 사용한다.
  • 평가 시 제로샷, 파샷, 그리고 체인-오브-생각(CoT) 프롬핑 설정을 실험한다.
  • 추론 영향 연구를 위해 수동으로 작성된 CoT 주석을 포함한 아홉 개 데이터셋의 전용 CoT 파인튜닝 믹스를 도입한다.
  • 보류 벤치마크(MMLU, BBH, TyDiQA, MGSM)에서 평가하고 인간 평가를 통한 개방형 생성도 평가한다.
  • 다양한 모델 크기(8B, 62B, 540B)와 모델 계열(Flan-T5, Flan-PaLM, cont-PaLM, U-PaLM)을 비교한다.

실험 결과

연구 질문

  • RQ1지시 기반 파인튜닝이 증가하는 작업 수와 모델 크기에 따라 이점이 스케일링되는가?
  • RQ2파인튜닝에 체인-오브-생각(CoT) 데이터를 포함하는 것이 보류된 작업에서 추론 능력에 어떤 영향을 미치는가?
  • RQ3CoT 파인튜닝을 비-CoT 작업과 결합해도 비-CoT 작업의 성능이 저하되지 않는가?
  • RQ4지시 파인튜닝된 모델이 아키텍처 및 사전학습 목표를 넘나들며 일반화하는가?
  • RQ5지시 파인튜닝의 실용적 영향은 개방형 생성의 사용성과 책임 있는 AI 지표에 어떤 영향을 미치는가?

주요 결과

  • 지시 파인튜닝은 모델 크기와 프롬프트에 걸쳐 큰 성능 향상을 가져오며, 보류 벤치마크에서 9.4%에서 15.5% 사이의 이점을 보인다.
  • 파인튜닝 작업 수를 늘리면 성능이 향상되며, 보여진 규모의 경우 약 282개 작업 이후에는 이득이 포화된다.
  • 8B에서 540B로 모델 크기를 확장하면 파인튜닝 여부에 관계없이 성능이 상당히 개선된다.
  • CoT 데이터셋 아홉 개를 파인튜닝에 포함시키면 벤치마크 전반에서 견고한 CoT 추론이 가능해지며, 최첨단 결과를 달성한다(예: MMLU에서 CoT + Self-Consistency로 Flan-PaLM 540B가 75.2%에 도달).
  • CoT 및 비-CoT 데이터의 공동 파인튜닝은 비-CoT 성능을 유지하면서 CoT 성능을 크게 향상시킨다.
  • Self-consistency를 활용한 CoT 프롬핑은 큰 이득을 주고 도전적 작업에서 제로샷-CoT 추론을 가능하게 한다.
  • Flan 모델은 지시 기반 파인튜닝을 적용한 모델이 적용하지 않은 모델들보다 많은 작업에서 성능이 앞서며, 강력한 제로샷 및 파샷 능력을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.