QUICK REVIEW

[논문 리뷰] Large Language Models as Analogical Reasoners

Michihiro Yasunaga, Xinyun Chen|arXiv (Cornell University)|2023. 10. 03.

Natural Language Processing Techniques인용 수 14

한 줄 요약

유추적 프롬프트가 LLM들이 맞춤형 예시와 지식을 스스로 생성하도록 유도하여, 라벨링된 데이터 없이 추론을 안내하고 수학, 코드, BIG-Bench 작업 전반에서 성능을 향상시킨다.

ABSTRACT

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, analogical prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

연구 동기 및 목표

체인-오브-생각(chain-of-thought) 프롬 prompting에서 수동으로 라벨링된 추론 예시에 대한 의존도를 줄이고자 한다.
모형이 맥락에서 관련 예시와 지식을 회상하고 생성하는 유추 프롬프트를 제안한다.
자체 생성된 예시와 지식이 수학, 코드, BIG-Bench 과제의 성능을 향상시킴을 보여준다.

제안 방법

자체 생성된 예시를 도입한다: 대상 문제를 해결하기 전에 한 번에 여러 관련 문제–해결 예시를 LLM이 회상하고 생성하도록 프롕프트한다.
자체 생성 지식으로 확장한다: 고수준의 튜토리얼을 예시에 동반하게 생성하도록 선택적으로 수행하여 복잡한 과제에 대한 일반화를 향상시킨다.
지식, 예시, 해답을 끝까지 한 번의 패스로 생성하는 단일 패스 프롬프트를 탐구한다.
GSM8K, MATH, Codeforces, BIG-Bench 전반에 걸쳐 다수의 기본 LLM(GPT-3.5-turbo, GPT-4, PaLM 2)을 실험한다.
0-shot CoT, 5-shot CoT, 및 검색 기반 CoT와 비교하여 자체 생성의 효과를 평가한다.
예시의 수(K)와 예시 앞의 지식 순서가 성능에 미치는 영향을 분석한다.

실험 결과

연구 질문

RQ1다양한 추론 과제에서 CoT 프롬 prompting에서 자체 생성된 예시가 수동으로 라벨링된 예시를 대체할 수 있는가?
RQ2예시와 함께 자체 생성된 고수준 지식을 추가하면 문제 해결이 개선되는가, 특히 코드 생성과 같은 복잡한 과제에서?
RQ3모델 크기와 서로 다른 기본 LLM에 걸쳐 이 접근 방식이 어떻게 확장되는가?
RQ4자체 생성과 예시 검색 간의 트레이드오프는 신뢰성과 성능 측면에서 어떤가?

주요 결과

자체 생성된 예시가 0-shot 및 표준 소수 샷 CoT를 넘는 GSM8K 및 MATH 정확도를 향상시킨다.
자체 생성 지식과 예시를 함께 사용하면 Codeforces 과제에서 추가 이점을 얻으며, 고수준 요약의 이점을 강조한다.
BIG-Bench 과제 전반에서 자체 생성 예시는 0-shot CoT를 능가하고 수동 3-shot CoT와도 경쟁한다.
이 방법은 더 큰 LLM에서 확장되며 더 큰 모델의 경우 검색 기반 CoT보다 성능이 나은 경향이 있다.
예시 수를 3–5로 늘리면 일반적으로 성능이 안정화되고 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.