[논문 리뷰] Large Language Models as Analogical Reasoners
유추적 프롬프트가 LLM들이 맞춤형 예시와 지식을 스스로 생성하도록 유도하여, 라벨링된 데이터 없이 추론을 안내하고 수학, 코드, BIG-Bench 작업 전반에서 성능을 향상시킨다.
Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, analogical prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
연구 동기 및 목표
- 체인-오브-생각(chain-of-thought) 프롬 prompting에서 수동으로 라벨링된 추론 예시에 대한 의존도를 줄이고자 한다.
- 모형이 맥락에서 관련 예시와 지식을 회상하고 생성하는 유추 프롬프트를 제안한다.
- 자체 생성된 예시와 지식이 수학, 코드, BIG-Bench 과제의 성능을 향상시킴을 보여준다.
제안 방법
- 자체 생성된 예시를 도입한다: 대상 문제를 해결하기 전에 한 번에 여러 관련 문제–해결 예시를 LLM이 회상하고 생성하도록 프롕프트한다.
- 자체 생성 지식으로 확장한다: 고수준의 튜토리얼을 예시에 동반하게 생성하도록 선택적으로 수행하여 복잡한 과제에 대한 일반화를 향상시킨다.
- 지식, 예시, 해답을 끝까지 한 번의 패스로 생성하는 단일 패스 프롬프트를 탐구한다.
- GSM8K, MATH, Codeforces, BIG-Bench 전반에 걸쳐 다수의 기본 LLM(GPT-3.5-turbo, GPT-4, PaLM 2)을 실험한다.
- 0-shot CoT, 5-shot CoT, 및 검색 기반 CoT와 비교하여 자체 생성의 효과를 평가한다.
- 예시의 수(K)와 예시 앞의 지식 순서가 성능에 미치는 영향을 분석한다.
실험 결과
연구 질문
- RQ1다양한 추론 과제에서 CoT 프롬 prompting에서 자체 생성된 예시가 수동으로 라벨링된 예시를 대체할 수 있는가?
- RQ2예시와 함께 자체 생성된 고수준 지식을 추가하면 문제 해결이 개선되는가, 특히 코드 생성과 같은 복잡한 과제에서?
- RQ3모델 크기와 서로 다른 기본 LLM에 걸쳐 이 접근 방식이 어떻게 확장되는가?
- RQ4자체 생성과 예시 검색 간의 트레이드오프는 신뢰성과 성능 측면에서 어떤가?
주요 결과
- 자체 생성된 예시가 0-shot 및 표준 소수 샷 CoT를 넘는 GSM8K 및 MATH 정확도를 향상시킨다.
- 자체 생성 지식과 예시를 함께 사용하면 Codeforces 과제에서 추가 이점을 얻으며, 고수준 요약의 이점을 강조한다.
- BIG-Bench 과제 전반에서 자체 생성 예시는 0-shot CoT를 능가하고 수동 3-shot CoT와도 경쟁한다.
- 이 방법은 더 큰 LLM에서 확장되며 더 큰 모델의 경우 검색 기반 CoT보다 성능이 나은 경향이 있다.
- 예시 수를 3–5로 늘리면 일반적으로 성능이 안정화되고 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.