[論文レビュー] ART: Automatic multi-step reasoning and tool-use for large language models
ART は未見のタスクに対して、統合ツール使用を含む多段の推論プログラムを自動生成し、few-shot prompting および Auto-CoT より性能を向上させつつ、拡張性と人間が編集可能な状態を維持する。
Large language models (LLMs) can perform complex reasoning in few- and zero-shot settings by generating intermediate chain of thought (CoT) reasoning steps. Further, each reasoning step can rely on external tools to support computation beyond the core LLM capabilities (e.g. search/running code). Prior work on CoT prompting and tool use typically requires hand-crafting task-specific demonstrations and carefully scripted interleaving of model generations with tool use. We introduce Automatic Reasoning and Tool-use (ART), a framework that uses frozen LLMs to automatically generate intermediate reasoning steps as a program. Given a new task to solve, ART selects demonstrations of multi-step reasoning and tool use from a task library. At test time, ART seamlessly pauses generation whenever external tools are called, and integrates their output before resuming generation. ART achieves a substantial improvement over few-shot prompting and automatic CoT on unseen tasks in the BigBench and MMLU benchmarks, and matches performance of hand-crafted CoT prompts on a majority of these tasks. ART is also extensible, and makes it easy for humans to improve performance by correcting errors in task-specific programs or incorporating new tools, which we demonstrate by drastically improving performance on select tasks with minimal human intervention.
研究の動機と目的
- 新しいタスクをツール使用を伴う多段推論へゼロショットまたは少数ショット分解することを可能にする。
- デモを取得し、LLM が推論プログラムを構築する際に指示するよう、タスクライブラリを活用する。
- 推論プロセスに外部ツール(検索、コード実行)を統合し、ツール出力後に生成を再開する。
- BigBench、MMLU および関連するツール使用ベンチマークでのタスク横断的一般化を示し、算術・アルゴリズムタスクを強調する。
- 人間のフィードバックとツール/ライブラリの更新が、LLM の再学習なしでさらなる性能向上につながる方法を示す。
提案手法
- 構造化されたタスクライブラリから関連タスクのデモを取得して、少数ショットのプロンプトを形成する。
- 分解を、Beurer-Kellner に触発された文法(PeG)を用いて、サブステップとツール呼び出しを含むプログラムとして表現する。
- ツール呼び出しで生成を一時停止し、ツールを実行して、ツール出力を統合して生成を再開する。
- 推論の流れの中で外部計算を提供するために、ツールライブラリ(検索、コード実行)を使用する。
- モデルのファインチューニングなしに、タスクまたはツールライブラリに対して任意の人間による編集を許可し、訂正を注入したり新しいツールを追加したりする。
- BigBench、MMLU、およびQAタスク全体で、凍結済みLLM(InstructGPT)とコードツール(Codex)を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1凍結済みのLLM が、タスクライブラリからのデモを活用することで、未見のタスクを自動的なツール使用を伴う多段推論に分解できるか?
- RQ2推論連鎖内の統合ツール呼び出しは、複雑なタスクにおいて、ベースラインのプロンプト作成および自動生成CoTより測定可能な向上をもたらすか?
- RQ3分解やツール使用についてタスク固有の監督を要さず、クロスタスク転送ベンチマーク(BigBench、MMLU)で ART の性能はどうか?
- RQ4人間が介在するタスク/ツールライブラリへの編集は、モデルのファインチューニングなしでどの程度性能を向上させられるか?
主な発見
- ART は 32/34 の BigBench およびすべての MMLU タスクで、自動生成 CoT と同等かそれを上回り、平均で22ポイント超の改善を達成。
- ツール使用は、ツールなしのベースラインと比較して、テスト時の性能を平均で12.3ポイント超改善。
- 未見の BigBench および MMLU タスク全体で、直接の few-shot prompting より平均で 10.8 ポイント改善。
- 人間のフィードバックを伴う12タスクで、ART は既知の GPT-3 最良結果を平均で20ポイント超上回る。
- ART は、タスクおよびツールライブラリの更新による容易な人間介入を可能にし、最小限の人力でターゲットを絞った改善を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。