[논문 리뷰] From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction Tuning
논문은 지시 학습 수준을 높이고 제로샷 일반화를 촉진하기 위해 심볼릭 태스크, 특히 SQL 실행을 활용하는 것을 연구하여, 일반화를 해치지 않으면서 강력한 테이블 추론 성능 향상을 보인다.
Fine-tuning language models on tasks with instructions has demonstrated potential in facilitating zero-shot generalization to unseen tasks. In this paper, we introduce a straightforward yet effective method for enhancing instruction tuning by employing symbolic tasks. Compared to crowdsourced human tasks or model-generated tasks, symbolic tasks present a unique advantage as they can be easily generated in vast quantities, theoretically providing an infinite supply of high-quality training instances. To explore the potential of symbolic tasks, we carry out an extensive case study on the representative symbolic task of SQL execution. Empirical results on various benchmarks validate that the integration of SQL execution leads to significant improvements in zero-shot scenarios, particularly in table reasoning. Notably, our 3B model surpasses both the 175B GPT-3 and ChatGPT in zero-shot table reasoning across four benchmarks. Furthermore, experimental results on BBH (27 tasks) and MMLU (57 tasks) reveal that language models can be enhanced through symbolic tasks without compromising their generality. We hope that our paper serves as a catalyst, inspiring increased efforts to incorporate symbolic tasks in instruction tuning.
연구 동기 및 목표
- 심볼릭 태스크가 보지 않은 task에 대한 제로샷 일반화를 위해 지시 학습을 보강할 수 있는지 조사한다.
- 테이블 추론 벤치마크 및 그 외 영역에 대한 심볼릭 태스크를 통합한 영향력을 평가한다.
- 일반적으로 보류된(generic held-out) 태스크에서 심볼릭 태스크가 성능에 영향을 주는지 평가한다.
제안 방법
- 공개 테이블에 실체화된 실행 가능한 SQL 템플릿을 사용하여 대규모 SQL 실행 말뭉치를 합성한다.
- 다양한 NL 태스크 데이터와 심볼릭 태스크 데이터를 결합하여 다중 과제 미세학습(multi-task fine-tuning)으로 학습한다(FLAN-T5의 리허설 전략).
- 훈련 없이도 가능한 대안으로: SQL 실행 결과를 지시 프롬프트의 일부로 포함한 합성 시연을 제공한다.
- 테이블 추론 벤치마크(WTQ, WikiSQL-Weak, SQA, TabFact) 및 비-테이블 태스크(SVAMP, BBH, MMLU) 전반에 걸친 제로샷 성능을 평가한다.
- FLAN-T5 변종, GPT-3 모델, TaPEx Zero를 포함한 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1RQ1: 현실적인 예시 없이도 방법이 테이블 추론을 향상시키는가?
- RQ2RQ2: 방법이 테이블 추론을 넘어선 태스크에 이득을 주는가?
- RQ3RQ3: 일반적인 태스크에서 성능에 악영향을 주는가?
주요 결과
| 모델 | WTQ | SQA | WikiSQL-Weak | TabFact |
|---|---|---|---|---|
| Fine-tuned SOTA | 62.8 | 74.5 | 89.5 | 92.1 |
| TaPEx | 4.1 | 4.0 | 21.2 | – |
| GPT-3 (code-davinci-002) | 40.4 | 10.5 | 55.2 | 64.1 |
| ChatGPT (gpt-3.5-turbo) | 42.9 | 13.7 | 26.1 | 68.8 |
| FLAN-T5 (Large) | 30.2 | 18.9 | 29.0 | 59.9 |
| TaPEx Zero (Large) | 41.9 (+11.7) | 29.9 (+11.0) | 62.6 (+33.6) | 63.9 (+4.0) |
| FLAN-T5 (XL) | 39.5 | 16.8 | 38.2 | 66.3 |
| TaPEx Zero (XL) | 50.2 (+10.7) | 34.1 (+17.3) | 70.5 (+32.3) | 72.3 (+6.0) |
- TaPEx Zero는 FLAN-T5 기반 모델의 테이블 추론 벤치마크에서 크게 성능을 향상시키며, 베이스라인을 능가하고 일부 더 큰 모델에 근접하거나 능가한다.
- TaPEx Zero XL 및 TaPEx Zero Large는 WTQ, SQA, WikiSQL-Weak, TabFact에서 FLAN-T5 베이스라인 대비 눈에 띄는 이득을 보인다.
- 심볼릭 태스크는 SVAMP 수치 추론을 개선하고 BBH와 MMLU 성능을 악화시키지 않아 일반성 유지가 시사된다.
- SQL 실행을 포함한 합성 시연은 상당한 제로샷 이점을 제공하며 소수의 시演으로도 실제 시演에 비견할 수 있다.
- TaPEx Zero는 현실적인 태스크 예제가 없어도 강한 제로샷 성능을 보이며 모델 크기에 따라 확장된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.