[논문 리뷰] Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
논문은 1,616-태스크 자연어 지시 벤치마크 Sup-NatInst와 언어- 다중 태스크 모델 T k-Instruct를 소개하여 보지 않은 태스크에 일반화하고 English 태스크에서 InstructGPT를 능가하며 강한 교차 언어 일반화를 보여준다.
How well can NLP models generalize to a variety of unseen tasks when provided with task instructions? To address this question, we first introduce Super-NaturalInstructions, a benchmark of 1,616 diverse NLP tasks and their expert-written instructions. Our collection covers 76 distinct task types, including but not limited to classification, extraction, infilling, sequence tagging, text rewriting, and text composition. This large and diverse collection of tasks enables rigorous benchmarking of cross-task generalization under instructions -- training models to follow instructions on a subset of tasks and evaluating them on the remaining unseen ones. Furthermore, we build Tk-Instruct, a transformer model trained to follow a variety of in-context instructions (plain language task definitions or k-shot examples). Our experiments show that Tk-Instruct outperforms existing instruction-following models such as InstructGPT by over 9% on our benchmark despite being an order of magnitude smaller. We further analyze generalization as a function of various scaling parameters, such as the number of observed tasks, the number of instances per task, and model sizes. We hope our dataset and model facilitate future progress towards more general-purpose NLP models.
연구 동기 및 목표
- 지시 기반 일반화의 범위를 확장하기 위해 대규모의 다양하고 공개적인 NLP 태스크 벤치마크와 동반 지시문을 제공한다.
- 모든 학습 태스크 지시에 대해 다중 태스크 학습하는 T5 백본 모델을 학습하고 보지 않은 태스크에서 제로샷 일반화를 시연한다.
- 태스크 다양성, 데이터, 모델 규모가 교차 태스크 및 교차 언어 일반화에 미치는 확장 요인을 분석한다.
제안 방법
- 자연어 태스크 정의, 양/음성 샘플 포함, 76개 태스크 유형 및 55개 언어에 걸친 1,616개 NLP 태스크의 메타 데이터셋 Sup-NatInst를 구축한다.
- 각 태스크 지시를 통합 텍스트 스키마로 표현하고 품질 관리를 위해 동료 심사와 크라우드 피드백이 포함된 다중 기여 파이프라인을 사용한다.
- 모든 학습 태스크 지시에 대해 T5 백본의 다중 태스크 학습으로 T k-Instruct를 학습하고 보지 않은 태스크에서 평가한다; 또한 비영어 태스크를 위한 mT5 기반의 다국어 MT k-Instruct를 학습한다.
- 프롬프트를 형성하기 위해 입력 인스턴스 앞에 태스크 정의와 선택된 시연 예시를 연결하여 지시를 인코딩한다.
- 두 트랙: 영어 보지 않은 태스크와 교차 언어 보지 않은 태스크에서 open-ended ROUGE-L 생성 지표로 평가를 수행하고, 인간 평가로 보완한다.
실험 결과
연구 질문
- RQ1명시적 자연어 지시에 따라 제공될 때 모델이 보지 않은 NLP 태스크에 얼마나 잘 일반화할 수 있는가?
- RQ2일의 다양성(태스크 수, 태스크당 인스턴스 수) 및 모델 규모가 보지 않은 태스크 일반화에 미치는 영향은 무엇인가?
- RQ3광범위한 태스크 세트에서 학습된 지시 준수 모델이 보지 않은 태스크에서 대형 독점 지시 조정 모델보다 더 나은 성능을 보일 수 있는가?
- RQ4명시적 지시에 따른 영어 일반화와 교차 언어 일반화 간의 차이는 무엇인가?
주요 결과
- T k-Instruct (11B)가 119개의 보지 않은 영어 태스크에서 InstructGPT (175B)보다 9.9 ROUGE-L 포인트 우수하다.
- mT k-Instruct (13B)가 35개의 비영어 태스크에서 InstructGPT보다 13.3 ROUGE-L 포인트 우수하다.
- 인간 평가에서 T k-Instruct의 출력이 테스트 인스턴스의 실제 정답보다 최소한 동일하거나 더 좋은 것으로 나타났다(77%).
- 훈련 태스크의 다양성과 모델 규모의 확장은 교차 태스크 일반화를 개선하며, 관찰된 태스크 수와 모델 규모가 지수적으로 증가할수록 ROUGE-L에서 선형 성능 이득이 나타난다.
- 상한 추정은 현재의 지시-조정 모델을 넘어서는 상당한 개선 여지가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.