[論文レビュー] Teaching Algorithmic Reasoning via In-context Learning
この論文は Algorithmic Prompting を用いて、イン-context 学習を通じて LLM にアルゴリズム的推論を教え、四則演算(足し算、引き算、掛け算)とパリティにおいて大幅な改善を達成し、OOD一般化が強いことを示す。
Large language models (LLMs) have shown increasing in-context learning capabilities through scaling up model and data size. Despite this progress, LLMs are still unable to solve algorithmic reasoning problems. While providing a rationale with the final answer has led to further improvements in multi-step reasoning problems, Anil et al. 2022 showed that even simple algorithmic reasoning tasks such as parity are far from solved. In this work, we identify and study four key stages for successfully teaching algorithmic reasoning to LLMs: (1) formulating algorithms as skills, (2) teaching multiple skills simultaneously (skill accumulation), (3) teaching how to combine skills (skill composition) and (4) teaching how to use skills as tools. We show that it is possible to teach algorithmic reasoning to LLMs via in-context learning, which we refer to as algorithmic prompting. We evaluate our approach on a variety of arithmetic and quantitative reasoning tasks, and demonstrate significant boosts in performance over existing prompting techniques. In particular, for long parity, addition, multiplication and subtraction, we achieve an error reduction of approximately 10x, 9x, 5x and 2x respectively compared to the best available baselines.
研究の動機と目的
- 文脈内学習を通じて LLM にアルゴリズムをスキルとして教える4つの段階を特定する。
- 詳細で明確な algorithmic prompts が算術タスクで堅牢な OOD 一般化を可能にすることを示す。
- 同時に複数のアルゴリズムを教えることでスキル蓄積を実証する。
- 学習したアルゴリズムをツールとして使用することで、スキルの組み合わせとより広い数学的推論タスクへの適用を探る。
提案手法
- 4つの学習段階を定義する: アルゴリズムをスキルとして教えること、スキルの蓄積、スキルの組み合わせ、スキルをツールとして使用すること。
- algorithmic prompting を提案し、プロンプト内に詳細なアルゴリズム実行手順と明示的な説明を提供する。
- 複数の算術タスクにおいて、few-shot、chain-of-thought、instruction-only のベースラインと algorithmic prompting を比較する。
- プロンプトで見た長さよりも長い解答長を用いて評価し、長さの一般化とOOD性能を評価する。
- 明示的な計算、自然言語の説明、プロンプトの曖昧さが性能に与える影響を評価するためのアブレーションを行う。
- 複数アルゴリズム学習(加算と減算)と組み合わせ(複数数の加算、掛け算=加算としての扱い)を調査する。
- GSM8k および GSM8k-Hard における learned algorithms のツールとしての使用を研究し、セカンドパスや対話風のツール使用アプローチを含む。
実験結果
リサーチクエスチョン
- RQ1L L M s は prompts を介して文脈内プロンプトで学習したアルゴリズムを、 prompts に見られない長い問題にも一般化できるか。
- RQ2明示的で曖昧さのないアルゴリズム手順を提供することは、算術タスクにおいて従来の prompting 戦略(few-shot、chain-of-thought、scratchpad)を上回るか。
- RQ3同時に複数のアルゴリズムを教え、それらをより複雑なタスクに組み合わせることの影響は何か。
- RQ4学習したアルゴリズムは、一般的な推論を妨げることなく、より広い数学的推論タスクのツールとして機能し得るか。
主な発見
| タスク | アルゴリズム的プロンプト (%) | 最良のベースライン (%) |
|---|---|---|
| Addition | 90.5 | 9.5 |
| Subtraction | 65.6 | 16.7 |
| Multiplication | 79.7 | 5.5 |
| Parity | 95.0 | 50.0 |
- Algorithmic Prompting は長い加算問題でほぼ完璚な精度と長さ(OOD)一般化を達成し、ベースラインを大きく上回る。
- 加算、減算、乗算、パリティについて、algorithmic prompting は最良のベースラインに対して、それぞれ約10倍、9倍、5倍、2倍の誤り低減をもたらす。
- アブレーション研究は、曖昧でない説明が重要であることを示し、アルゴリズム手順のエラーは、プロンプトが体系的に誤っている場合に性能を劇的に低下させる。
- モデルは単一のプロンプトで複数のアルゴリズムを学習できる(スキル蓄積)し、それらを組み合わせて複合タスクを解くことができ、ベースラインを上回る性能を示す。
- 学習したアルゴリズムをツールとして使用することは数学の語題の性能を向上させる可能性があるが、一般的な推論への干渉が生じる可能性があり、セカンドパスと対話形式のツール使用がいくつかの問題を緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。