Skip to main content
QUICK REVIEW

[논문 리뷰] Orca: Progressive Learning from Complex Explanation Traces of GPT-4

Subhabrata Mukherjee, Arindam Mitra|arXiv (Cornell University)|2023. 06. 05.
Explainable Artificial Intelligence (XAI)인용 수 67
한 줄 요약

Orca는 설명이 풍부한 신호와 점진적 교사 지도를 사용하여 GPT-4의 추론을 모방하도록 학습하는 13B 모델로, Big-Bench Hard에서 ChatGPT와 동등한 성능을 달성하고 AGIEval 및 전문 시험에서 강한 성과를 보이지만 여전히 GPT-4에 뒤처진다.

ABSTRACT

Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model's capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA's release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.

연구 동기 및 목표

  • 대형 기반 모델의 모방과 그들의 추론 과정을 학습하는 사이의 간극을 해소한다.
  • 설명 풍부한 신호와 시스템 지시를 활용하여 더 작은 모델에서 점진적 학습을 가능하게 한다.
  • 제로샷 추론 및 개방형 생성 능력을 향상시키기 위해 학습 데이터를 확장하고 다양화한다.
  • 개방형 생성, 추론 벤치마크, 안전성 및 전문 시험 전반에 걸쳐 Orca를 평가한다.

제안 방법

  • ⟨쿼리, 응답⟩ 쌍에 GPT-4의 설명 흔적을 추가하여 추론 과정을 밝힌다.
  • 설명 및 단계별 사고 과정을 이끌어내기 위해 시스템 지시를 활용한다.
  • FLAN-v2(Flan 2022)를 대규모이고 다양한 작업 모음으로 활용하고 제로샷 프롬 prompts를 샘플링한다.
  • 두 단계 교사 전략: 먼저 5M ChatGPT-augmented 지시문으로 학습하고, 그런 다음 1M GPT-4-augmented 지시문으로 미세조정한다.
  • LLaMA 스타일의 BPE 토크나이제이션과 32,001 토큰 어휘로 학습; 효율을 위한 패킹을 사용한다.

실험 결과

연구 질문

  • RQ1설명 튜닝이 작은 모델이 더 큰 LFMs의 추론 과정을 학습하게 할 수 있는가?
  • RQ2중간 교사(먼저 ChatGPT, 그다음 GPT-4)를 통한 점진적 학습이 제로샷 추론 및 작업 성능을 향상시키는가?
  • RQ3복잡한 추론 벤치마크와 전문 시험에서 13B 모델이 ChatGPT 및 GPT-4에 얼마나 근접할 수 있는가?

주요 결과

  • Orca는 BigBench Hard(BBH)에서 복잡한 제로샷 추론으로 Vicuna-13B를 100% 이상 능가한다.
  • Orca는 AGIEval에서 기준선 대비 42% 향상된다.
  • CoT 없이 BBH에서 제로샷 설정으로 ChatGPT와 동등한 성능에 도달한다.
  • Orca는 SAT, LSAT, GRE 및 GMAT에서 제로샷 MCQ로 경쟁력 있는 성능을 보이며, 최적화된 시스템 메시지에 4점의 미세한 차이로 근접한다.
  • Orca는 GPT-4보다 뒤처지지만 설명 기반 학습을 통해 강력한 추론 및 이해력 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.