QUICK REVIEW

[논문 리뷰] Scaling Instruction-Finetuned Language Models

Hyung Won Chung, Le Hou|arXiv (Cornell University)|2022. 10. 20.

Topic Modeling인용 수 1,182

한 줄 요약

이 논문은 지시 기반 파인튜닝이 더 많은 작업과 더 큰 모델에서 스케일링되며, 체인-오브-생각(CoT) 데이터를 포함하는 것이 추론 능력을 크게 향상시켜 최첨단 결과를 달성하고(예: Flan-PaLM 540B) 개방형 끝-생성 품질도 강하다는 것을 보여준다.

ABSTRACT

Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.

연구 동기 및 목표

지시 기반 파인튜닝을 통해 unseen 작업에 대한 일반화를 촉진한다.
모델 크기별로 파인튜닝 작업 수가 성능에 미치는 영향을 조사한다.
추론 과제에서 CoT 데이터의 파인튜닝 반영 영향력 평가
PaLM, T5, U-PaLM 계열 간에 지시 기반 파인튜닝의 크로스-모델 적용 가능성을 입증한다.
지시 파인튜닝된 모델의 사용성 및 책임 있는 AI 측면을 평가한다.

제안 방법

다수의 모델 계열(T5, PaLM, U-PaLM)을 Muffin, T0-SF, NIV2, 및 CoT 데이터의 1,836개 작업에 대해 지시 튜닝 파인튜닝 한다.
패킹을 사용하여 여러 학습 예제를 끝 토큰으로 하나의 시퀀스로 결합한다.
입력에 지시 템플릿을 앞에 추가하고 경계에 마스킹을 적용하며; Adafactor 옵티마이저와 일정한 학습률 스케줄을 사용한다.
평가 시 제로샷, 파샷, 그리고 체인-오브-생각(CoT) 프롬핑 설정을 실험한다.
추론 영향 연구를 위해 수동으로 작성된 CoT 주석을 포함한 아홉 개 데이터셋의 전용 CoT 파인튜닝 믹스를 도입한다.
보류 벤치마크(MMLU, BBH, TyDiQA, MGSM)에서 평가하고 인간 평가를 통한 개방형 생성도 평가한다.
다양한 모델 크기(8B, 62B, 540B)와 모델 계열(Flan-T5, Flan-PaLM, cont-PaLM, U-PaLM)을 비교한다.

실험 결과

연구 질문

RQ1지시 기반 파인튜닝이 증가하는 작업 수와 모델 크기에 따라 이점이 스케일링되는가?
RQ2파인튜닝에 체인-오브-생각(CoT) 데이터를 포함하는 것이 보류된 작업에서 추론 능력에 어떤 영향을 미치는가?
RQ3CoT 파인튜닝을 비-CoT 작업과 결합해도 비-CoT 작업의 성능이 저하되지 않는가?
RQ4지시 파인튜닝된 모델이 아키텍처 및 사전학습 목표를 넘나들며 일반화하는가?
RQ5지시 파인튜닝의 실용적 영향은 개방형 생성의 사용성과 책임 있는 AI 지표에 어떤 영향을 미치는가?

주요 결과

지시 파인튜닝은 모델 크기와 프롬프트에 걸쳐 큰 성능 향상을 가져오며, 보류 벤치마크에서 9.4%에서 15.5% 사이의 이점을 보인다.
파인튜닝 작업 수를 늘리면 성능이 향상되며, 보여진 규모의 경우 약 282개 작업 이후에는 이득이 포화된다.
8B에서 540B로 모델 크기를 확장하면 파인튜닝 여부에 관계없이 성능이 상당히 개선된다.
CoT 데이터셋 아홉 개를 파인튜닝에 포함시키면 벤치마크 전반에서 견고한 CoT 추론이 가능해지며, 최첨단 결과를 달성한다(예: MMLU에서 CoT + Self-Consistency로 Flan-PaLM 540B가 75.2%에 도달).
CoT 및 비-CoT 데이터의 공동 파인튜닝은 비-CoT 성능을 유지하면서 CoT 성능을 크게 향상시킨다.
Self-consistency를 활용한 CoT 프롬핑은 큰 이득을 주고 도전적 작업에서 제로샷-CoT 추론을 가능하게 한다.
Flan 모델은 지시 기반 파인튜닝을 적용한 모델이 적용하지 않은 모델들보다 많은 작업에서 성능이 앞서며, 강력한 제로샷 및 파샷 능력을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.