QUICK REVIEW

[論文レビュー] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

Guohao Li, Hasan Abed Al Kader Hammoud|arXiv (Cornell University)|Mar 31, 2023

Speech and dialogue systems被引用数 93

ひとこと要約

本論文は CAMEL を紹介する。協調ロールプレイングフレームワークに inception prompting を用いて自律的なマルチエージェント協力を可能にし、広範な対話データセットを生成し、CAMEL ベースの解決策が複数の評価で単発ベースラインを上回ることを示す。

ABSTRACT

The rapid advancement of chat-based language models has led to remarkable progress in complex task-solving. However, their success heavily relies on human input to guide the conversation, which can be challenging and time-consuming. This paper explores the potential of building scalable techniques to facilitate autonomous cooperation among communicative agents, and provides insight into their "cognitive" processes. To address the challenges of achieving autonomous cooperation, we propose a novel communicative agent framework named role-playing. Our approach involves using inception prompting to guide chat agents toward task completion while maintaining consistency with human intentions. We showcase how role-playing can be used to generate conversational data for studying the behaviors and capabilities of a society of agents, providing a valuable resource for investigating conversational language models. In particular, we conduct comprehensive studies on instruction-following cooperation in multi-agent settings. Our contributions include introducing a novel communicative agent framework, offering a scalable approach for studying the cooperative behaviors and capabilities of multi-agent systems, and open-sourcing our library to support research on communicative agents and beyond: https://github.com/camel-ai/camel.

研究の動機と目的

人間の介入を最小限に抑えて、対話型エージェント間の自律的協力を実現するスケーラブルなフレームワークを開発する。
ロールプレイとデータ生成を通じてエージェント社会の振る舞いと能力を研究する。
協調型 AI、アラインメント、マルチエージェントシステムの研究を支援するデータセットとオープンソースツールを提供する。
このフレームワークによって生成されたデータセットストリームでモデルをファインチューニングすることにより、LLM における能力の出現を調査する。

提案手法

AI アシスタントとユーザーに明確な役割を割り当て、協力して特定のタスクを完遂するロールプレイングフレームワークを紹介する。
初期にタスク仕様と役割プロンプトを生成するために Inception Prompting を使用し、その後自律的な AI–AI 会話を行う。
提案を導くクリティックをループに組み込み、ツリー探索のような意思決定をシミュレートする。
分析とアラインメント研究のために大規模な対話データセット（AI Society、Code）と単一ターンの QA データセット（Math、Science）を生成する。
人間と GPT-4 の評価を用いて、エージェントの性能を単発ベースラインと比較評価する。
生成されたデータセット上で段階的に LLaMA-7B をファインチューニングし、ドメイン横断の知識出現を研究する。

実験結果

リサーチクエスチョン

RQ1ロールプレイングフレームワークを用いて、最小限の人間入力で自律的協力エージェントが複雑なタスクを完遂できるか？
RQ2マルチエージェント協力においてどんな課題（例: 役割の反転、反復、フレークな返答、無限ループ）が生じ、それをどう緩和できるか？
RQ3CAMEL によって生成されたデータセットは、後続のモデルファインチューニングでドメイン知識の出現を促進しますか？
RQ4協調的なマルチエージェント解決策は、指示遵守タスクにおいて単発の LLM ベースラインを上回りますか？
RQ5社会的文脈における自律的コミュニケーションエージェントの倫理性とアラインメントの考慮事項は何ですか？

主な発見

Dataset	Evaluation Type	Draw	gpt-3.5-turbo Wins	CAMEL Agents Win
AI Society	Human Evaluation	13.3%	10.4%	76.3%
AI Society	GPT4 Evaluation	4.0%	23.0%	73.0%
Code	GPT4 Evaluation	0.0%	24.0%	76.0%

CAMEL 生成解は human および GPT-4 の評価の双方で gpt-3.5-turbo の単発解を上回る。
このフレームワークは、LLaMA-7B のファインチューニングに用いると、AI Society、Code のデータ生成を拡張可能にし、Math、Science の多ドメイン出現を促進する。
人間の評価者と GPT-4 の評価は、CAMEL が単発ベースラインに対して優れているという点でおおむね一致している。
多様なデータセットは、段階的なファインチューニングの過程で知識の出現とドメイン横断の性能向上を促進する。
このアプローチは、協調AI研究を支援するモジュール化されたエージェント、プロンプト、データ探索ツールを備えた公開ライブラリを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。