Skip to main content
QUICK REVIEW

[논문 리뷰] Specializing Smaller Language Models towards Multi-Step Reasoning

Yao Fu, Hao Peng|arXiv (Cornell University)|2023. 01. 30.
Topic Modeling인용 수 43
한 줄 요약

논문은 소형 모델(≤11B 파라미터)이 대형 교사 모델로부터 CoT 데이터를 증류하여 다단계 수학 추론에 능숙해지도록 특화될 수 있음을 보여주며, 일반 능력을 희생하고 목표 작업 성능을 달성하는 trade-off와 특화를 거친 후의 로그-선형 확장 곡선을 드러낸다.

ABSTRACT

The surprising ability of Large Language Models (LLMs) to perform well on complex reasoning with only few-shot chain-of-thought prompts is believed to emerge only in very large-scale models (100+ billion parameters). We show that such abilities can, in fact, be distilled down from GPT-3.5 ($\ge$ 175B) to T5 variants ($\le$ 11B). We propose model specialization, to specialize the model's ability towards a target task. The hypothesis is that large models (commonly viewed as larger than 100B) have strong modeling power, but are spread on a large spectrum of tasks. Small models (commonly viewed as smaller than 10B) have limited model capacity, but if we concentrate their capacity on a specific target task, the model can achieve a decent improved performance. We use multi-step math reasoning as our testbed because it is a very typical emergent ability. We show two important aspects of model abilities: (1). there exists a very complex balance/ tradeoff between language models' multi-dimensional abilities; (2). by paying the price of decreased generic ability, we can clearly lift up the scaling curve of models smaller than 10B towards a specialized multi-step math reasoning ability. We further give comprehensive discussions about important design choices for better generalization, including the tuning data format, the start model checkpoint, and a new model selection method. We hope our practice and discoveries can serve as an important attempt towards specialized smaller models in the new research paradigm set by LLMs.

연구 동기 및 목표

  • 소형 언어 모델이 특화로 인해 강력한 다단계 수학 추론을 달성할 수 있음을 입증한다.
  • 증류 및 데이터 형식이 소형 모델의 CoT 능력에 어떤 영향을 주는지 조사한다.
  • 일반 능력(BBH)과 대상 특화 능력(수학) 간의 트레이드오프를 특징지운다.
  • 특화 후의 확장성(동일 데이터 분포 내/외, 인-디스트리뷰션 대 아웃-디스트리뷰션)과 일반화 를 평가한다.
  • 효과적인 특화 소형 모델 학습을 위한 설계 권고를 제공한다.

제안 방법

  • 대형 교사(코드-davinci-002)로 생성된 증류 데이터를 이용해 FlanT5와 T5 베이스라인을 미세조정해 CoT 가능 출력을 생성한다.
  • 데이터 형식을 탐색한다: 인-context 정답만, 인-context CoT, 제로샷 형식으로 능력에 미치는 효과를 연구한다.
  • 주문형 매칭을 증류 목적으로 적용해 학생-교사 각 스텝 분포를 정렬하고 토크나이저 정렬은 동적 프로그래밍으로 해결한다.
  • GPT와 T5의 토큰화 정렬을 정렬 기반 동적 프로그래밍 방법으로 맞춘다.
  • GSM8K(동일 데이터 분포) 및 4개의 OOD 수학 데이터 세트(MultiArith, ASDiv, SVAMP)와 일반 능력을 위한 BigBench Hard를 평가한다.
  • 튜닝 단계 간 특화 진행과 일반 능력 유지 간의 트레이드오프를 분석한다.
Figure 1: A. Model specialization process. Pretraining gives a strong base model (Raffel et al., 2020 ; Chowdhery et al., 2022 ) , instruction tuning elicits the model ability (Chung et al., 2022 ) , then specialization (this work’s focus) moves model abilities to a target direction. In this work, w
Figure 1: A. Model specialization process. Pretraining gives a strong base model (Raffel et al., 2020 ; Chowdhery et al., 2022 ) , instruction tuning elicits the model ability (Chung et al., 2022 ) , then specialization (this work’s focus) moves model abilities to a target direction. In this work, w

실험 결과

연구 질문

  • RQ1소형 모델(≤11B)이 CoT 작업에 특화되어 다단계 수학 추론을 향상시킬 수 있는가?
  • RQ2증류 데이터 형식과 지시문 미세조정(base model)이 특화 성능에 미치는 영향은 어떠한가?
  • RQ3특 specialization이 동일 분포 내/외 성능 및 제로샷 대 인-context 능력에 어떤 영향을 미치는가?
  • RQ4일반 능력(BigBench Hard) 보존과 대상 작업의 CoT 수학 추론 향상 사이에 어떤 트레이드오프가 있는가?
  • RQ5다양한 검증 신호를 기반으로 한 모델 선택이 동분포 및 OOD 태스크의 최종 성능에 어떤 영향을 주는가?

주요 결과

  • 특화는 GSM8K 평균에서 약 +10 정확도 향상을 가져오며, 3B 및 11B FlanT5 모델이 강력한 성과를 달성한다.
  • 특화된 소형 모델은 대상 수학 작업(GSM8K 및 OOD 데이터셋)에서 훨씬 큰 모델의 성능에 근접하거나 도달할 수 있지만 BigBench Hard에서 일반 능력이 저하된다.
  • 소형 모델의 특화 후 확장 곡선은 로그-선형이 되며(평평하지 않음), 특화 후 다단계 추론이 모델 크기에 따라 원활하게 확장될 수 있음을 시사한다.
  • 지시문 조정 기반 베이스(FlanT5)는 특화 후 일반적으로 원시 사전학습 베이스(T5)보다 우수한 성능을 보이며, 지시문으로 조정된 체크포인트에서 시작하는 이점이 강조된다.
  • 동일-분포 대 외부-분포 성능 간, 인-context 대 제로샷 능력 간의 명확한 트레이드오프가 있으며, 원하는 일반화 목표에 따라 모델 선택이 달라진다.
  • 두 가지 증류 전략은 수렴 속도에서 차이가 있으나(final performance) 최종 성능에서 큰 차이를 보이지 않는다.
Figure 2: X-axis means log of model scale, y-axis means validation accuracy on GSM8K. A : Previously, the community believe that small models has flat curve for both AO and CoT prompting and only when models become large enough the performance will have a “phase change” and suddenly increase. B : we
Figure 2: X-axis means log of model scale, y-axis means validation accuracy on GSM8K. A : Previously, the community believe that small models has flat curve for both AO and CoT prompting and only when models become large enough the performance will have a “phase change” and suddenly increase. B : we

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.