[論文レビュー] Efficient Tool Use with Chain-of-Abstraction Reasoning
本論文は Chain-of-Abstraction (CoA) reasoning を導入し、一般的な多段階推論とドメイン固有のツール利用を分離する。これにより、抽象的な推論チェーンをツールによって具体化し、数学と Wiki QA のタスクにおける正確で高速な多段階問題解決を実現する。
To achieve faithful reasoning that aligns with human expectations, large language models (LLMs) need to ground their reasoning to real-world knowledge (e.g., web facts, math and physical rules). Tools help LLMs access this external knowledge, but there remains challenges for fine-tuning LLM agents (e.g., Toolformer) to invoke tools in multi-step reasoning problems, where inter-connected tool calls require holistic and efficient tool usage planning. In this work, we propose a new method for LLMs to better leverage tools in multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to first decode reasoning chains with abstract placeholders, and then call domain tools to reify each reasoning chain by filling in specific knowledge. This planning with abstract chains enables LLMs to learn more general reasoning strategies, which are robust to shifts of domain knowledge (e.g., math results) relevant to different reasoning questions. It also allows LLMs to perform decoding and calling of external tools in parallel, which avoids the inference delay caused by waiting for tool responses. In mathematical reasoning and Wiki QA domains, we show that our method consistently outperforms previous chain-of-thought and tool-augmented baselines on both in-distribution and out-of-distribution test sets, with an average ~6% absolute QA accuracy improvement. LLM agents trained with our method also show more efficient tool use, with inference speed being on average ~1.4x faster than baseline tool-augmented LLMs.
研究の動機と目的
- 外部ツールを活用してドメイン知識を得ることで、LLM における忠実で地に足のついた推論を動機づける。
- プレースホルダを用いた抽象推論チェーンを生成するよう、LLM を訓練するためのトレーニング・パイプラインを開発する。
- 一般的な推論とツールベースのグラウンディングを分離し、並列デコードとツールの埋め込みを可能にする。
- 知識の変動に対する頑健性を評価するため、数学的推論と Wikipedia QA に対して CoA を評価する。
提案手法
- CoA traces を含む推論チェーンを生成するよう、LLMsをファインチューニングする。
- 知識を計算・取得することでプレースホルダを具体化し、推論チェーンをグラウンディングするために、ドメイン固有のツールを用いる。
- ゴールド回答を抽象チェーンに書き換え、ツールで検証することによって CoA のファインチューニングデータを構築する。
- 抽象チェーン生成後に並列ツール呼び出しを可能にすることで、推論時間を平準化し、デコードの効率を評価する。
- 数学と Wiki QA のデータセットにおいて、CoA を CoT-FSP、CoT-FT、Toolformer、FireAct のベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1抽象的推論チェーンは、多段階推論におけるドメイン知識の変動への頑健性を高めることができるか?
- RQ2抽象推論とツールの使用を分離することは、数学と Wiki QA におけるツール補助推理の効率性と正確性を高めるか?
- RQ3CoA は、インDistributionおよびアウト・オブ・ディストリビューションのテストセットで、既存のツール補助型およびチェーン・オブ・思考(CoT)ベースラインと比較してどう性能を示すか?
- RQ4多段階推論タスクへスケールさせる際の推論速度に対する CoA の影響はどのようか?
主な発見
- CoA は、数学で約7.5%、Wiki QAで約4.5%の平均絶対QA精度改善をもたらす(分布内および分布外)。
- CoA による推論速度は、数学で約1.47倍、Wiki QAでは約1.33倍、ベースラインと比較して高速である。
- 人間評価では、CoA はベースラインより約8%推論エラーが少ない。
- CoA は、ツールをドメイン内で補助することなくても、複雑な多段階推論と長い推論チェーンで Toolformer や他のベースラインを上回る。
- 抽象推論とツール呼び出しを分離することは、並列デコードとツールの埋め込みを可能にし、待機時間を短縮し、効率を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。