QUICK REVIEW

[論文レビュー] Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Ling Yang, Zhaochen Yu|arXiv (Cornell University)|Jun 6, 2024

Topic Modeling被引用数 7

ひとこと要約

Buffer of Thoughts（BoT）は、高レベルの思考テンプレートのメタバッファと、推論ガイドラインを動的に抽出・再利用するバッファ管理機を導入し、10の難解なタスクにおける最先端の改善を達成しつつ、マルチクエリ促しコストを低減します。

ABSTRACT

We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm

研究の動機と目的

LLM推論における単一クエリおよびマルチクエリ促しの限界を動機づけ、対処する。
思考テンプレートのメタバッファと推論ガイドラインを蒐集・再利用するバッファ管理機を導入する。
より高い精度と効率のために思考テンプレートのタスク特異的なインスタンス化を可能にする。
10の推論集約的タスクで最先端の成果を示し、堅牢性と効率性を分析する。

提案手法

問題ディスティラ―（Problem distiller）モジュールは推論前に重要なタスク情報と制約を抽出する。
メタバッファは普遍的な高レベル思考（思考テンプレート）を6種類に分類して格納し、埋め込み類似度で取得する。
インスタンシエーション・プロンプトを介して retrieved thought-template を現在のタスクに適応させ、推論を実行する。
バッファ管理機は解決済みの問題からテンプレートを蒐集し、メタバッファを更新して今後のタスク解決を改善する。
2タスクおよびクロスタスクの例を用いて堅牢な思考テンプレートを蒐集し、一般化を向上させる。
評価は10のベンチマークで基盤モデルとしてGPT-4を使用（Llama3-8B/70Bも分析）し、標準・単一クエリ・マルチクエリ・メタプロンプトのベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1Buffer of Thoughts は、単一・マルチクエリ促しのベースラインと比較して、難易度の高い推論集約タスクで精度を向上させるか。
RQ2メタバッファはタスク横断で高レベル思考を再利用することで、より良い一般化と堅牢性を可能にするか。
RQ3BoT の効率性への影響は既存のマルチクエリ手法と比較してどうか、より小さなモデルは BoT から利益を得られるか。

主な発見

BoT は Game of 24 で11%、Geometric Shapesで20%、Checkmate-in-Oneで51%など、複数のタスクで従来手法に対して大きな精度向上を達成する。
BoT はマルチクエリ促し手法よりはるかに低いコストを達成し、平均してそのコストの約12%となる。
BoT はベースラインと比較してベンチマーク全般で成功率が高く、堅牢性の改善を示す。
Llama3-8B を用いた BoT は、いくつかのタスクで Llama3-70B を上回る可能性があり、効率と精度のトレードオフを改善する。
バッファ管理機は継続的なメタバッファの拡張を可能にし、より多くの問題が解かれるにつれて推論効率が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。