QUICK REVIEW

[論文レビュー] More Agents Is All You Need

Junyou Li, Qin Zhang|arXiv (Cornell University)|Feb 3, 2024

Topic Modeling被引用数 17

ひとこと要約

本論文は、サンプリングと投票による手法で実体化した LLM エージェントの数を単純に増やすだけで、タスク全般の性能が一貫して向上し、小規模モデルのアンサンブルを用いることで大規模モデルに匹敵する／それを上回ることができ、既存の手法と互換性があることを示している。

ABSTRACT

We find that, simply via a sampling-and-voting method, the performance of large language models (LLMs) scales with the number of agents instantiated. Also, this method, termed as Agent Forest, is orthogonal to existing complicated methods to further enhance LLMs, while the degree of enhancement is correlated to the task difficulty. We conduct comprehensive experiments on a wide range of LLM benchmarks to verify the presence of our finding, and to study the properties that can facilitate its occurrence. Our code is publicly available at: https://github.com/MoreAgentsIsAllYouNeed/AgentForest

研究の動機と目的

多様なタスク全体で、LLMエージェントの数を増やすと一貫した性能向上が得られるかを調査する。
LLMsを強化するための単純で直交的な手法として、サンプリングと投票のアプローチの普遍性を評価する。
タスクの難易度の次元がマルチエージェント・アンサンブルの有効性にどう影響するかを検討する。
既存のプロンプティングおよびマルチエージェント・フレームワークとの適合性と潜在的な相乗効果を調べる。

提案手法

Two-phase sampling-and-voting: LLMや複数の手法の組み合わせに問い合わせてN個のサンプルを生成し、サンプルの類似度に基づく多数決で最終回答を選択する。
生成タスクにはBLEUを、クローズドエンドのタスクには出現頻度を用いるなど、タスクタイプに適した類似度指標を用いて投票合計を計算する。
複数のLLMとデータセットに渡ってNを変化させ、アンサンブルサイズの効果を定量化・分析する。
既存のプロンプティング技術（例：Chain-of-Thought、Zero-Shot CoT）およびマルチエージェント・フレームワーク（例：Debate、Reflection）と統合して、サンプリングと投票手法の互換性を評価する。
ハイパーパラメータ（temperature、nucleus sampling）を変えるアブレーションによる頑健性の検証と、タスクの難易度差を跨いだ性能の検討。
ステップワイズおよび階層的サンプリングと投票といった拡張を提案し、さらなる向上を図る。

実験結果

リサーチクエスチョン

RQ1幅広いタスクやモデルサイズにわたって、実体化したLLMエージェントの数が増えると、性能は一般に向上するか。
RQ2提案されたサンプリングと投票のアプローチは、既存のプロンプティングおよびマルチエージェント協調手法と直交しており、それを強化できるか。
RQ3固有の難易度、推論ステップ数、正解の事前確率といったタスク難易度の次元が、マルチエージェント・アンサンブルの有効性にどう影響するか。
RQ4階層的または段階的なサンプリングと投票の変種が、条件変化下でさらに向上をもたらすか。

主な発見

性能は、タスクとモデルを問わずアンサンブル Size とともに一般的にスケールし、十分なアンサンブルで小規模モデルが大規模モデルに近づくか、あるいはそれを上回る。
この手法は既存の技術とほぼ直交しており、それらと組み合わせると性能をさらに向上させる可能性がある。
相対的な利得は、難しいタスクや、指定された次元でタスク難易度が高まるほど大きい。
ステップワイズおよび階層的変種は、特に複雑な問題や階層的に分解可能な問題において、追加の利得を生み出す可能性がある。
複数のデータセットとモデルにわたり、本手法は、単独のベースラインや他の強化手法と比較して平均ランキングで優位を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。