Skip to main content
QUICK REVIEW

[논문 리뷰] STaR: Bootstrapping Reasoning With Reasoning

Eric Zelikman, Yuhuai Wu|arXiv (Cornell University)|2022. 03. 28.
Topic Modeling인용 수 114
한 줄 요약

STaR은 소수의 예제로부터 합리화 데이터세트를 반복적으로 생성하고 정제하여 추론을 부트스트랩하며, 자기 생성 추론을 통해 학습을 개선합니다. 합리화로 산술, 일반상식 QA, 초등학교 수학에서 강력한 이득을 얻으며, 합리화가 강화된 데이터로 미세조정하여 학습합니다.

ABSTRACT

Generating step-by-step "chain-of-thought" rationales improves language model performance on complex reasoning tasks like mathematics or commonsense question-answering. However, inducing language model rationale generation currently requires either constructing massive rationale datasets or sacrificing accuracy by using only few-shot inference. We propose a technique to iteratively leverage a small number of rationale examples and a large dataset without rationales, to bootstrap the ability to perform successively more complex reasoning. This technique, the "Self-Taught Reasoner" (STaR), relies on a simple loop: generate rationales to answer many questions, prompted with a few rationale examples; if the generated answers are wrong, try again to generate a rationale given the correct answer; fine-tune on all the rationales that ultimately yielded correct answers; repeat. We show that STaR significantly improves performance on multiple datasets compared to a model fine-tuned to directly predict final answers, and performs comparably to fine-tuning a 30$ imes$ larger state-of-the-art language model on CommensenseQA. Thus, STaR lets a model improve itself by learning from its own generated reasoning.

연구 동기 및 목표

  • 소수의 합리화 예제로부터 부트스트래핑하여 추론을 개선하도록 언어 모델을 동기부여하고 가능하게 한다.
  • 다음의 더 나은 합리화와 답을 생성하기 위해 합리화를 생성·필터링하고 미세조정하는 확장 가능한 루프를 개발한다.
  • 잘못된 시도 후에 정답을 정당화하도록 모델을 훈련시켜 실패에 대응하기 위해 합리화를 도입한다.
  • STaR을 기호적 및 자연어 추론 과제에 걸쳐 평가하여 광범위한 적용 가능성을 입증한다.

제안 방법

  • 사전학습된 LLM과 소규모 합리화 가능 프롬프트 세트를 사용하여 대규모 데이터세트에 대한 합리화와 답을 생성한다.
  • 생성된 합리화를 정답으로 이어지는 것만 남기고 이 데이터로 미세조정한다.
  • 추론과 최종 답안을 모두 향상시키기 위해 합리화 생성과 미세조정을 반복적으로 수행한다.
  • 합리화를 도입한다: 모델이 잘못 해결한 문제에 대해 정답을 힌트로 제공하고 그 힌트에서 생성된 합리화를 활용해 학습 데이터를 확충한다.
  • 선택적으로 초기 올바른 해결책과 합리화된 올바른 해결책 모두에 대해 훈련하여 학습 신호를 증폭한다.

실험 결과

연구 질문

  • RQ1대형 언어 모델이 소규모 초기 세트에서 합리화를 반복적으로 생성하고 미세조정함으로써 자체 추론을 개선할 수 있는가?
  • RQ2정답을 조건으로 한 추론인 합리화를 추가하는 것이 추론의 부트스트래핑을 가속화하고 개선하는가?
  • RQ3직접 답변 미세조정 및 몇-shot 프롬팅과 비교할 때 STaR은 산술, 일반상식 추론, 초등학교 수학에서 어떤 성능을 보이는가?
  • RQ4작업 전반에 걸친 모델 성능과 합리화 품질에 대한 합리화의 영향은 무엇인가?

주요 결과

  • STaR은 최종 답을 직접 예측하도록 미세조정된 모델에 비해 다양한 작업에서 성능을 크게 향상시킨다.
  • CommonsenseQA에서 합리화를 포함한 STaR은 72.5% 정확도에 도달하고 합리화를 제외하면 68.8%이며 동일 설정의 30배 큰 GPT-3 모델 73.0%와 비교된다.
  • GSM8K에서 STaR은 합리화로 10.7% 테스트 정확도(합리화를 제외하면 10.1%)를 달성하였으며 비교적 작은 학습 데이터 규모를 사용한다.
  • 산술에서 STaR은 16회 반복 후 전체 정확도 89.5%에 도달하며 기준선 76.3%보다 상당히 높다.
  • 합리화는 모델이 어려운 문제에 노출되도록 돕고 데이터 세트를 확장할 수 있으며 새로운 문제에 대한 일반화 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.