QUICK REVIEW

[論文レビュー] Cumulative Reasoning with Large Language Models

Yifan Zhang, Jingqin Yang|arXiv (Cornell University)|Aug 8, 2023

Topic Modeling被引用数 11

ひとこと要約

本論文はCumulative Reasoning (CR) を紹介する。提案者、検証者、報告者の三エージェント・フレームワークを用い、逐次的に中間命題を構築・検証して複雑なタスクに対処する。FOLIO-wiki-curated、Game of 24、MATH で最先端の結果を達成し、コード環境バリアントも含んで高い性能を示す。

ABSTRACT

Recent advancements in large language models (LLMs) have shown remarkable progress, yet their ability to solve complex problems remains limited. In this work, we introduce Cumulative Reasoning (CR), a structured framework that enhances LLM problem-solving by emulating human-like iterative and cumulative thought processes. CR orchestrates LLMs in three distinct roles: Proposer, Verifier(s), and Reporter, to systematically decompose tasks, generate and validate intermediate reasoning steps, and compose them into a solution by building a dynamic Directed Acyclic Graph (DAG) of verified propositions. This approach substantially enhances problem-solving capabilities. We demonstrate CR's advantage through several complex reasoning tasks: it outperforms existing methods in logical inference tasks with up to a 9.3% improvement, achieving 98.04% accuracy on the curated FOLIO wiki dataset. In the Game of 24, it achieves 98% accuracy, marking a 24% improvement over previous methods. In solving MATH problems, CR achieves a 4.2% increase from previous methods and a 43% relative improvement in the most challenging level 5 problems. When incorporating a code environment with CR, we further harness LLMs' reasoning capabilities and outperform the Program of Thought (PoT) method by 38.8%. Project Page: https://github.com/iiis-ai/cumulative-reasoning.

研究の動機と目的

高度に複雑なタスクを言語モデルで解くという課題に対し、意図的で累積的な推論を可能にする。
問題を原子ステップに分解し、DAG様の構造で中間結果を蓄積する。
CRを論理推論、パズル解決、数学的推論データセットで評価し、CoTおよびToTのベースラインと比較する。
外部ツールを使わずに intrinsic なLLM推論をテストするため、Pythonコード環境を含むCRを拡張する。

提案手法

CRを3つのLLM役割で導入する：提案者は次の手順を提案、検証者は提案を検証、報告者は停止して解答を届ける時を決定する。
歴史的に正しい中間結果を保存するDAG／ハイパーグラフ由来の推論トレースを使用し、非線形な思考プロセスを可能にする。
CRとChain-of-Thought (CoT) およびTree-of-Thought (ToT) を比較する；CRの一般化とメモリの利点を論じる。
FOLIO-wiki、FOLIO-wiki-curated、AutoTNLI、Game of 24、MATH を横断して性能をベンチマークする。
コード環境の実験では、外部ツールを使わずに本質的な推論を検証するために、Python実行によるシンボリック検証を置換する。

実験結果

リサーチクエスチョン

RQ1累積的で多エージェントの推論プロセスは、論理推論、パズル解決、数学的問題解決において標準 prompting 手法を上回ることができるか。
RQ2DAG様の構造に中間結果を保存することは、連鎖/木ベースのアプローチよりロバスト性と精度を向上させるか。
RQ3CRは多様なタスク（FOLIO、Game of 24、MATH）でCoTおよびToTと比べてどう機能するか。
RQ4Pythonコード環境の追加はCRの性能とエラーモードにどのような影響を与えるか。

主な発見

CR with GPT-4 は FOLIO-wiki-curated で 98.04% の達成率、誤り率は 1.96% 。
FOLIO-wiki (un-curated) で GPT-4 with CR は 87.45% の正確性。
Game of 24 で CR は 98% の正確性に達し、以前のToT最先端より 24% 改善。
MATH のコードなしでは、CR は 58.0% の全体正解率を達成し、PHP を用いた Complex-CoT より 4.2% のマージン、レベル5問題で相対的に 43% の改善。
Pythonコード環境を備えたCR は MATH で 72.2% の全体正解率を達成し、PAL を相対で 38.9%、ToRA を相対で 18.8% 上回る。
CR は特に PHP プロンプティングを用いた場合、MATH のサブドメイン全般でロバスト性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。