[論文レビュー] Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models
Cha me leon は、LLMs が視覚モデル、ウェブ検索、Python、ヒューリスティックといった多様なツールを NL 的なプログラムとして組み立て、マルチモーダル推論タスクに取り組ませるプラグアンドプレイ型フレームワークであり、GPT-4 を用いて ScienceQA および TabMWP で新しい最先端を達成します。
Large language models (LLMs) have achieved remarkable progress in solving various natural language processing tasks due to emergent reasoning abilities. However, LLMs have inherent limitations as they are incapable of accessing up-to-date information (stored on the Web or in task-specific knowledge bases), using external tools, and performing precise mathematical and logical reasoning. In this paper, we present Chameleon, an AI system that mitigates these limitations by augmenting LLMs with plug-and-play modules for compositional reasoning. Chameleon synthesizes programs by composing various tools (e.g., LLMs, off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules) for accomplishing complex reasoning tasks. At the heart of Chameleon is an LLM-based planner that assembles a sequence of tools to execute to generate the final response. We showcase the effectiveness of Chameleon on two multi-modal knowledge-intensive reasoning tasks: ScienceQA and TabMWP. Chameleon, powered by GPT-4, achieves an 86.54% overall accuracy on ScienceQA, improving the best published few-shot result by 11.37%. On TabMWP, GPT-4-powered Chameleon improves the accuracy by 17.0%, lifting the state of the art to 98.78%. Our analysis also shows that the GPT-4-powered planner exhibits more consistent and rational tool selection via inferring potential constraints from instructions, compared to a ChatGPT-powered planner. The project is available at https://chameleon-llm.github.io.
研究の動機と目的
- 最新情報へのアクセス、外部ツールの活用、正確な推論の面で標準的な LLM の制約を動機づけて検討・対処する。
- 多様なツール群を調整して NL 的なプログラムを統合する、柔軟なプラグアンドプレイ型フレームワークを提案する。
- マルチモーダルな ScienceQA と表形式の TabMWP ベンチマークで有効性を示し、LLM 間での計画品質を比較する。
提案手法
- 多様なツールのモジュール在庫を導入する(LLMs、視覚モデル、ウェブ検索、Python、ヒューリスティクス)。
- LLM ベースのプランナーを用いて、クエリを解決するためにモジュールを順序付けた NL 系のプログラムを生成する。
- キャッシュされた文脈とともにモジュールを逐次実行し、ステップ間で入力とキャッシュを更新する。
- 理解しやすく拡張もしやすい NL 風のプランを生成することで、ドメイン固有のプログラミング言語を避ける。
- GPT-4 をプランナーとして用いると、ChatGPT よりツール選択が一貫していることを示す。
![Figure 1 : Examples from our Cha me leon approach with GPT-4 on ScienceQA [ 32 ] , a multi-modal question answering benchmark in scientific domains. Cha me leon is adaptive to different queries by synthesizing programs to compose various tools and executing them sequentially to get final answers.](https://ar5iv.labs.arxiv.org/html/2304.09842/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1LLM ベースのプランナーは、現実世界の推論タスクのために異種のツールを組み合わせる頑健な NL 風プログラムを合成できるか。
- RQ2視覚、ウェブ、知識取得、計算を横断するプラグアンドプレイ型モジュールは、マルチモーダルおよび表形式推論のベンチマークで性能を向上させるか。
- RQ3プランナーの品質(GPT-4 vs ChatGPT)は、ツール選択、計画の妥当性、最終的な精度にどう影響するか。
主な発見
| モデル | #調整済みパラメータ | 全 | 自然 | 社会 | 言語 | テキスト | 画像 | 番号 | G1-6 | G7-12 |
|---|---|---|---|---|---|---|---|---|---|---|
| Cha me leon (GPT-4) | 0M | 86.54 | 89.83 | 74.13 | 89.82 | 88.27 | 77.64 | 92.13 | 88.03 | 83.72 |
| Cha me leon (ChatGPT) | 0M | 79.93 | 81.62 | 70.64 | 84.00 | 79.77 | 70.80 | 86.62 | 88.03 | 83.72 |
- Cha me leon with GPT-4 は ScienceQA で 86.54% の精度を達成し、公開された最良の few-shot 結果を 11.37% 上回る。
- TabMWP では GPT-4 を用いた Cha me leon が 98.78% の精度に達し、最先端を 17.0% 向上させた。
- GPT-4 に基づく計画は、ChatGPT よりツール選択がより一貫して合理的であることを示し、指示からの制約推定が計画を改善する。
- アブレーションにより、Knowledge Retrieval およびドメイン/ツールモジュールが ScienceQA および TabMWP の性能にとって不可欠であることが示される。
- Cha me leon は、タスク固有の訓練を使わずに、自然言語風のプログラムを用いて多様なツールを統括することで、領域を超えて一般化する。
![Figure 2 : Two examples from our Cha me leon approach with GPT-4 on TabMWP [ 33 ] , a mathematical reasoning benchmark with tabular contexts. Cha me leon demonstrates flexibility and efficiency in adapting to different queries that require various reasoning abilities.](https://ar5iv.labs.arxiv.org/html/2304.09842/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。