[論文レビュー] Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models
AoTは最小限のクエリでソリューション空間を探索するための文脈内アルゴリズム推論を導入し、単一クエリ手法を上回り、ToTのような外部ツリー探索法にも匹敵する。
Current literature, aiming to surpass the "Chain-of-Thought" approach, often resorts to external modi operandi involving halting, modifying, and then resuming the generation process to boost Large Language Models' (LLMs) reasoning capacities. Due to their myopic perspective, they escalate the number of query requests, leading to increased costs, memory, and computational overheads. Addressing this, we propose the Algorithm of Thoughts -- a novel strategy that propels LLMs through algorithmic reasoning pathways. By employing algorithmic examples fully in-context, this overarching view of the whole process exploits the innate recurrence dynamics of LLMs, expanding their idea exploration with merely one or a few queries. Our technique outperforms earlier single-query methods and even more recent multi-query strategies that employ an extensive tree search algorithms while using significantly fewer tokens. Intriguingly, our results suggest that instructing an LLM using an algorithm can lead to performance surpassing that of the algorithm itself, hinting at LLM's inherent ability to weave its intuition into optimized searches. We probe into the underpinnings of our method's efficacy and its nuances in application. The code and related content can be found in: https://algorithm-of-thoughts.github.io.
研究の動機と目的
- LLMの多段階推論におけるクエリ要求を削減する動機づけを行い、コストとエネルギーを節約する。
- 単一または最小限のクエリ数でアルゴリズム的探索を内部化する新しい文脈内学習パラダイムを導入する。
- 標準 prompting や CoT を超えた解空間の探索を拡張するために、再帰的・ヒューリスティック推論をLLMで活用する。
- アルゴリズム的文脈内プロンプトが単一クエリ手法を上回り、外部のツリー探索アプローチと競合しうることを示す。
- AoTの限界と制約を調査する。トークン効率やモデル能力(例:GPT-4)への依存を含む。
提案手法
- 探索過程のアルゴリズム(DFS/BFS風)を文脈内のアルゴリズム的例として1つの生成ウィンドウ内にエンコードするAoTを提案する。
- 外部評価のための一時停止をせずに、連続的な生成で全体の系列を作成・評価できるようにし、トークン確率サンプリングの限界に対処する。
- DFS指向のプロンプトと剪定を用いて有望なノードへバックトラックし、LLM自身のヒューリスティックを組み込んで局所的で有望な分岐を優先する。
- AoTを標準 prompting、Chain-of-Thought (CoT)、CoT with Self-Consistency、Standard+Refine、Tree-of-Thought (ToT)と推論タスク全体で比較する。
- AoTが1つのクエリで高い成功を達成できることを示し、誤分類のタイプを分析して今後のプロンプト設計に活かす。
- アルゴリズム選択のバリエーション(AoT(DFS)、AoT(BFS)、AoT(Random))とプロンプト長(AoT Short/Long)の影響を研究する。)
実験結果
リサーチクエスチョン
- RQ1AoTは外部のツリー探索法の効率と性能を、はるかに少ないLLMクエリ数で上回ることができるか。
- RQ2プロンプトにアルゴリズム的探索挙動を組み込むことが、LLMの推論の品質と速度にどう影響するか。
- RQ3AoTをToTや他の prompting 手法と比較したときのトークン使用量と生成長のトレードオフは何か。
- RQ4異なるツリー探索戦略(DFS対 BFS対ランダム)はAoTの効果と効率に影響を与えるか。
- RQ5AoTの主要な誤りモードは何か、プロンプトをどう調整すればそれらを緩和できるか。
主な発見
| Method | Success | Avg. Queries |
|---|---|---|
| Standard Prompting | 7.3% | 1 |
| CoT | 4.0% | 1 |
| CoT-SC (k=100) | 9.0% | 100 |
| Standard + Refine | 27% | 10 |
| ToT (b=5) | 69% | 109.1 |
| AoT (DFS) | 71% | 1 |
- AoTはGame of 24とミニクロスワードで標準 promptingおよびCoT/CoT-SCといった単一プロンプト手法を上回る。
- AoTは複数のタスクでToTの性能に一致または上回り、LLMクエリ数を大幅に減らす(AoTは約1クエリ、ToTはGame of 24で平均約109.1クエリ)。
- Game of 24では、AoTは平均1回のクエリで71%の成功、ToTは約109クエリで69%に対して。
- 5x5ミニクロスワードでは、AoTは2回の平均クエリで52%の単語成功、ToTは200超のクエリで60%。AoTの誤差プロファイルは異なる主要な失敗モードを示す。
- 誤り分析は、表現ミスや未完了などのカテゴリを示し、AoT+Manual ResolutionがGame of 24で78%の成功を達成。
- AoTのバリエーション(DFS/BFS/Random)は、構造化されたアルゴリズム(DFS/BFS)がランダム探索を上回ることを示し、Game of 24でAoT(DFS)71%、AoT(BFS)48%の成功率。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。