[論文レビュー] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
Chain-of-Agents (CoA) は、長い文脈をチャンクごとに読み取るシーケンシャルなワーカL L Mと、最終的な回答を総合する別個のマネージャL L M を使用し、RAG および全文脈ベースのベースラインと比較して長い文脈タスクの性能を最大で10%改善します。
Addressing the challenge of effectively processing long contexts has become a critical issue for Large Language Models (LLMs). Two common strategies have emerged: 1) reducing the input length, such as retrieving relevant chunks by Retrieval-Augmented Generation (RAG), and 2) expanding the context window limit of LLMs. However, both strategies have drawbacks: input reduction has no guarantee of covering the part with needed information, while window extension struggles with focusing on the pertinent information for solving the task. To mitigate these limitations, we propose Chain-of-Agents (CoA), a novel framework that harnesses multi-agent collaboration through natural language to enable information aggregation and context reasoning across various LLMs over long-context tasks. CoA consists of multiple worker agents who sequentially communicate to handle different segmented portions of the text, followed by a manager agent who synthesizes these contributions into a coherent final output. CoA processes the entire input by interleaving reading and reasoning, and it mitigates long context focus issues by assigning each agent a short context. We perform comprehensive evaluation of CoA on a wide range of long-context tasks in question answering, summarization, and code completion, demonstrating significant improvements by up to 10% over strong baselines of RAG, Full-Context, and multi-agent LLMs.
研究の動機と目的
- 長文の入力処理の課題を、入力削減やウィンドウ拡張だけでなく扱う必要性を動機づける。
- 訓練不要で、長い入力全体の情報を統合するタスク非依存のマルチエージェント枠組みを提案する。
- 短い文脈のワーカー間での読み取りと推論をインターレーブさせ、全受容野をカバー可能にする。
- 別個のマネージャーエージェントがワーカー出力を合成して正確な最終回答を得られることを示す。
提案手法
- 長い入力 x を、各ワーカー W_i が q と I_W の指示で c_i を処理できるよう、サイズ ≤ k のチャンクに分割する。
- ワーカーは逐次処理を行い、次のステップの証拠または要約された推論を含む通信単位 CU_i を生成する。
- マネージャ M は最後のワーカーからの CU_l を消費し、最終回答を生成する:Answer = LLM_M(I_M, CU_l, q)。
- CoA はインターレーブ読み取り・処理サイクルを可能にし、各ワーカーに短い文脈を提供しつつ、全入力を共同でカバーする。
- CoA を Vanilla(k内の全文脈)および RAG ベースラインと比較し、さらには 2 つのマルチエージェントベースライン(Merge、Hierarchical)と比較した。
- 時間計算量:CoA のエンコードは O(nk)、全文脈は O(n^2)、デコードはどちらの場合も O(nr)。
実験結果
リサーチクエスチョン
- RQ1訓練なしで、別個のマネージャを伴うワーカL L M の連続チェーンは、長文-context タスクの性能を改善できるか。
- RQ2短い各エージェント文脈でのインターレーブ読み取り・処理は、中間での喪失を緩和し、長い入力に対する効果的なマルチホップ推論を実現できるか。
- RQ3CoA は QA、要約、コード補完タスク全体で RAG および全文脈ベースラインとどう比較されるか。
- RQ4エージェントの順序付けとマルチパス拡張が最終パフォーマンスに与える影響は何か。
主な発見
- CoA は、QA、要約、コード補完にまたがる nine long-context datasets で Vanilla および RAG を上回り、最大10% の利得を達成する。
- 長い入力とより強力なモデルでは、ベースラインに対する相対的改善が大きくなり、NarrativeQA および BookSum で顕著な改善を含む。
- アブレーションはマネージャーコンポーネントの重要性を示しており、それを削除するとパフォーマンスが顕著に低下する(例:MuSiQue)。
- 左から右の読み取り順が一般に最良の順序であり、マルチパスアプローチ(Self-Consistency、Permutation、Bi-directional)は結果をさらに改善でき、oracleパスは上限を設定する。
- CoA は Vanilla 全文脈ベースの長文 LLMs における“lost-in-the-middle”現象を緩和し、特に長いサンプルで効果を発揮する。
- 長い文脈のウィンドウが非常に大きい Claude-3 200k と比較しても、CoA は、小さなウィンドウを用いた場合、入力長が増すにつれて高いまたは競合的な性能を達成できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。