QUICK REVIEW

[論文レビュー] LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions

Chuanneng Sun, Songjun Huang|arXiv (Cornell University)|May 17, 2024

Reinforcement Learning in Robotics被引用数 10

ひとこと要約

この論文は、既存のLLMベースの単一エージェントおよびマルチエージェントRLのフレームワークを調査し、言語がMARLにおける協調と通信を可能にする方法を分析し、個性、人間を介在させるフレームワーク、共設計、そして安全性を含む今後の研究方向を概説する。

ABSTRACT

In recent years, Large Language Models (LLMs) have shown great abilities in various tasks, including question answering, arithmetic problem solving, and poem writing, among others. Although research on LLM-as-an-agent has shown that LLM can be applied to Reinforcement Learning (RL) and achieve decent results, the extension of LLM-based RL to Multi-Agent System (MAS) is not trivial, as many aspects, such as coordination and communication between agents, are not considered in the RL frameworks of a single agent. To inspire more research on LLM-based MARL, in this letter, we survey the existing LLM-based single-agent and multi-agent RL frameworks and provide potential research directions for future research. In particular, we focus on the cooperative tasks of multiple agents with a common goal and communication among them. We also consider human-in/on-the-loop scenarios enabled by the language component in the framework.

研究の動機と目的

LLMベースのMARLと従来のMARLフレームワークの全体像を調査し、長所とギャップを特定する。
言語条件付けが協調タスクにおけるエージェント間の通信と協調を支援する方法を強調する。
LLMを活用したMARLにおける具現化アプリケーションと人間を介在させるループを含むシナリオを論じる。
言語条件付きMASを前進させるための未解決の研究課題と潜在的な方向性を概説する。

提案手法

従来の非LLM MARLアプローチ（learning-to-cooperateとlearning-to-communicate）とそれらの協調/通信パラダイムをレビューする。
LLMベースの単一エージェントRLとオープンループ/クローズドループのフレームワーク（例：ReAct, Reflexion, ADaPT, Refiner, Retroformer, REX）を要約する。
Table Iを用いて既存のLLMベースMARLフレームワークを整理し、協調、計画、通信の役割を強調する。
今後の4つの研究方針を議論する：人格機能を備えた協力、言語機能を備えた人間を介在させる/含むループフレームワーク、従来のMARLとLLMの共同設計、MASにおける安全性/セキュリティ。
言語条件付きMARLを展開する際の課題、機会、実務的考慮事項の構造化された概要を提供する。

実験結果

リサーチクエスチョン

RQ1現在のLLMベースMARLフレームワークは何であり、それらはエージェント間の協調と通信をどのように対処しているか？
RQ2言語条件付きMARLの主要な課題と未解決の問題は何で、どの方向性が最も有望か（人格、human-in/on-the-loop、共設計、安全性）？
RQ3資源効率が高く、オンボード実装可能な方法で言語モデルを従来のMARLと統合するには（例：共設計と蒸留）？
RQ4LLMsを取り入れた際のMAS特有の安全性とセキュリティ上の考慮事項は何であり、それをどのように緩和できるか？

主な発見

LLMsは協調と解釈性の潜在的な改善を伴う言語条件付きMARLを可能にする。
DyLAN、FAMA、CoELA、SMART-LLM、RoCo、Co-NavGPTなど、意思決定、計画、通信におけるLLMsの多様な役割を示すいくつかのフレームワーク。
この分野は新興段階であり、具現化タスクと非具現化タスクの両方におおいに将来の可能性がある。
4つのオープンディレクションが特定されている：人格を有効にした協力、人間を含む/介在させるフレームワーク、従来のMARLとLLMの共設計、MASにおける安全性/セキュリティ。
著者らは、多エージェント協調を効果的に活用するための新しい指標とアーキテクチャの必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。