[논문 리뷰] Teaching Algorithmic Reasoning via In-context Learning
이 논문은 알고리즘적 프롬프트를 통해 LLM에 in-context 학습으로 알고리즘적 사고를 가르치고, 산술 과제(덧셈, 뺄셈, 곱셈) 및 짝수성에서 상당한 향상을 달성하며, OOD 일반화가 강하다는 것을 보여준다.
Large language models (LLMs) have shown increasing in-context learning capabilities through scaling up model and data size. Despite this progress, LLMs are still unable to solve algorithmic reasoning problems. While providing a rationale with the final answer has led to further improvements in multi-step reasoning problems, Anil et al. 2022 showed that even simple algorithmic reasoning tasks such as parity are far from solved. In this work, we identify and study four key stages for successfully teaching algorithmic reasoning to LLMs: (1) formulating algorithms as skills, (2) teaching multiple skills simultaneously (skill accumulation), (3) teaching how to combine skills (skill composition) and (4) teaching how to use skills as tools. We show that it is possible to teach algorithmic reasoning to LLMs via in-context learning, which we refer to as algorithmic prompting. We evaluate our approach on a variety of arithmetic and quantitative reasoning tasks, and demonstrate significant boosts in performance over existing prompting techniques. In particular, for long parity, addition, multiplication and subtraction, we achieve an error reduction of approximately 10x, 9x, 5x and 2x respectively compared to the best available baselines.
연구 동기 및 목표
- LLMs에 in-context 학습을 통해 알고리즘을 기술로 가르치는 네 가지 단계를 식별한다.
- 자세하고 명확한 알고리즘 프롬프트가 산술 과제에서 견고한 OOD 일반화를 가능하게 함을 보인다.
- 여러 알고리즘을 동시에 가르쳐 기술 축적(skill accumulation)을 시연한다.
- 학습된 알고리즘을 도구로써broader 수학 추론 과제에서의 기술 구성과 용도를 탐구한다.
제안 방법
- 네 가지 학습 단계를 정의한다: 알고리즘을 기술로 가르치기, 기술 축적, 기술 구성, 그리고 기술을 도구로 사용하는 것.
- 프롬프트 내에서 알고리즘 수행 단계와 명시적 설명을 제공하는 알고리즘적 프롬프트를 제안한다.
- 다양한 산술 과제에서 알고리즘적 프롬프트를 few-shot, chain-of-thought, 그리고 instruction-only baselines와 비교한다.
- 프롬프트에서 본 길이보다 더 긴 정답 길이를 시험하여 길이 일반화와 OOD 성능을 평가한다.
- 명시적 계산, 자연어 설명, 프롬프트의 애매함이 성능에 미치는 영향을 평가하기 위한 제거(ablations) 연구를 수행한다.
- 덧셈과 뺄셈의 다중 알고리즘 학습 및 구성(다중 숫자 덧셈, 곱셈-를 덧셈으로)을 조사한다.
- 학습된 알고리즘을 GSM8k 및 GSM8k-Hard의 도구로 사용하도록 연구하며, 2차 처리 및 대화형 도구 사용 접근법을 포함한다.
실험 결과
연구 질문
- RQ1LLMs가 prompts를 통해 더 긴 문제 인스턴스로 일반화될 수 있는 알고리즘을 학습할 수 있는가?
- RQ2명시적이고 모호하지 않은 알고리즘적 단계가 산술 과제에 대해 전통적인 프롬프트 전략(few-shot, chain-of-thought, scratchpad)을 능가하는가?
- RQ3다수의 알고리즘을 동시에 가르치고 이를 더 복잡한 작업으로 구성하는 영향은 무엇인가?
- RQ4학습된 알고리즘이 일반적 추론에 해를 끼치지 않으면서 광범위한 수학적 추론 작업에서 도구로 작용할 수 있는가?
주요 결과
| 과제 | 알고리즘 프롬프트 (%) | 최고 사용 가능한 기준선 (%) |
|---|---|---|
| 덧셈 | 90.5 | 9.5 |
| 뺄셈 | 65.6 | 16.7 |
| 곱셈 | 79.7 | 5.5 |
| 짝수성 | 95.0 | 50.0 |
- Algorithmic Prompting은 긴 덧셈 문제에서 거의 완전한 정확도와 강력한 길이(OOD) 일반화를 달성하며, 기존 baselines를 크게 상회한다.
- 덧셈, 뺄셈, 곱셈, 짝수성에 대해 알고리즘적 프롬프트가 각각 약 10배, 9배, 5배, 2배의 오차 감소를 가져온다.
- 비모호한 설명이 결정적으로 중요하며, 프롬프트가 체계적으로 잘못되면 알고리즘 단계의 오류가 성능을 현저히 떨어뜨린다.
- 모델은 하나의 프롬프트에서 여러 알고리즘을 학습(기술 축적)할 수 있으며 이를 구성하여 합성 작업을 해결할 수 있어 baselines를 능가하는 성능을 보인다.
- 학습된 알고리즘을 도구로 사용하면 수학 단어 문제의 성능이 향상되지만, 일반 추론에 대한 간섭 가능성도 있으며, 2차 처리 및 대화형 도구 사용은 일부 문제를 완화한다。
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.