QUICK REVIEW

[논문 리뷰] The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

Shayne Longpre, Le Hou|arXiv (Cornell University)|2023. 01. 31.

Advanced Neural Network Applications인용 수 110

한 줄 요약

본 연구는 Flan 2022 지시-조정(instruction-tuning) 방법을 ablate(제거)하고, 혼합 프롬프트 학습, 작업 다변화, 입력 반전, 데이터 소스 균형이 3–17%의 이득을 낳으며, Flan-T5가 더 빠르게 수렴하고 단일 작업 미세조정의 시작점으로 더 강력한 성능을 제공하는 반면, Flan 2022 자원을 공개적으로 릴리스한다는 점을 보여준다.

ABSTRACT

We study the design decisions of publicly available instruction tuning methods, and break down the development of Flan 2022 (Chung et al., 2022). Through careful ablation studies on the Flan Collection of tasks and methods, we tease apart the effect of design decisions which enable Flan-T5 to outperform prior work by 3-17%+ across evaluation settings. We find task balancing and enrichment techniques are overlooked but critical to effective instruction tuning, and in particular, training with mixed prompt settings (zero-shot, few-shot, and chain-of-thought) actually yields stronger (2%+) performance in all settings. In further experiments, we show Flan-T5 requires less finetuning to converge higher and faster than T5 on single downstream tasks, motivating instruction-tuned models as more computationally-efficient starting checkpoints for new tasks. Finally, to accelerate research on instruction tuning, we make the Flan 2022 collection of datasets, templates, and methods publicly available at https://github.com/google-research/FLAN/tree/main/flan/v2.

연구 동기 및 목표

공개적으로 이용 가능한 지시-조정 방법의 설계 결정을 평가한다.
Flan 2022 컬렉션에서 성능 이득을 이끄는 구성 요소를 분리한다.
단일 작업 미세조정의 시작점으로 Flan-T5를 평가한다.
연구를 가속화하기 위한 오픈 소스 데이터셋, 템플릿 및 방법을 제공한다.

제안 방법

Flan 2022 컬렉션에 대한 제거 연구를 위해 T5-LM 기반 모델(XL, 3B)을 파인튜닝한다.
Held-In, Held-Out, 및 CoT 벤치마크에서 Flan-T5 XL을 다른 지시-조정 컬렉션과 비교한다.
혼합 제로샷/소수샷 템플릿, 입력 반전, 데이터 소스 균형 및 1800개 이상의 작업으로의 확장을 대상으로 제어된 제거를 수행한다.
Held-In 및 Held-Out 성능에서 작업 다양성 및 혼합의 영향 분석한다.
단일 작업 미세조정에서 Flan-T5 대 T5의 수렴 속도와 효율성을 평가한다.
공개 사용을 위한 Flan 2022 컬렉션, 템플릿 및 방법을 공개한다.

실험 결과

연구 질문

RQ1지시-조정의 어떤 설계 선택이 Held-In, Held-Out, 및 CoT 벤치마크에서 성능에 가장 큰 영향을 미치는가?
RQ2훈련 중 제로샷, 소수샷, CoT 프롬프트를 혼합하는 것이 프롬프트와 작업 전반의 일반화에 어떤 영향을 미치는가?
RQ3Flan 2022에서 모델 크기 및 작업 수의 확장이 Held-In 및 Held-Out 성능에 어떤 영향을 미치는가?
RQ4입력 반전과 작업 소스 균형이 성능 향상에 실질적으로 기여하는가?
RQ5Flan-T5가 전통적인 T5 모델 대비 단일 작업 미세조정에서 더 빠르게 수렴하고 더 높은 성능의 시작점이 될 수 있는가?

주요 결과

제로샷과 소수샷 프롬프트를 혼합해 학습하면 Held-In 및 Held-Out 설정 모두에서 성능이 향상되며, 일부 경우 최대 2% 이상 이득이 있다.
입력 반전을 통한 작업 다양성 확장이 Held-Out 평가(MMLU 및 BBH)에 이익을 준다.
데이터 소스의 균형 및 체인-오브-생각(Chain-of-Thought) 데이터를 포함하는 것이 지표 전반의 개선에 기여한다.
1800개 이상의 작업으로 확장하면 성능 이득이 나타나며, 더 큰 모델일수록 작업 다양성 및 크기의 이점이 커진다.
Flan-T5는 단일 작업 미세조정에서 T5보다 더 빠르게 수렴하고 더 높은 정확도를 달성하며, 더 강력한 시작 체크포인트로 작용한다.
Flan 2022 컬렉션은 여러 Held-In 및 Held-Out 벤치마크에서 Flan 2021, P3++, Super-Natural Instructions 및 OPT-IML-Max 175B를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.