QUICK REVIEW

[論文レビュー] Game-Theoretic Multiagent Reinforcement Learning

Yaodong Yang, Ma, Chengdong|arXiv (Cornell University)|Nov 1, 2020

Reinforcement Learning in Robotics参考文献 398被引用数 146

ひとこと要約

この論文は、ゲーム理論の観点からマルチエージェント強化学習(MARL)の自己完結型の概要を提供し、基礎（確率ゲームおよび広義形式ゲーム）を詳述し、さまざまなMARL設定における最近のアルゴリズムの進展を調査します。

ABSTRACT

Tremendous advances have been made in multiagent reinforcement learning (MARL). MARL corresponds to the learning problem in a multiagent system in which multiple agents learn simultaneously. It is an interdisciplinary field of study with a long history that includes game theory, machine learning, stochastic control, psychology, and optimization. Despite great successes in MARL, there is a lack of a self-contained overview of the literature that covers game-theoretic foundations of modern MARL methods and summarizes the recent advances. The majority of existing surveys are outdated and do not fully cover the recent developments since 2010. In this work, we provide a monograph on MARL that covers both the fundamentals and the latest developments on the research frontier. The goal of this monograph is to provide a self-contained assessment of the current state-of-the-art MARL techniques from a game-theoretic perspective. We expect this work to serve as a stepping stone for both new researchers who are about to enter this fast-growing field and experts in the field who want to obtain a panoramic view and identify new directions based on recent advances.

研究の動機と目的

確率ゲームと広義形式ゲームを通じてMARLの問題定式化を紹介する。
MARLにおけるナッシュ均衡などの解法概念および方策/値ベースのアプローチを説明する。
最近のMARLアルゴリズム開発を調査し、一貫した語彙分類に整理する。
複雑性・非定常性・スケーラビリティなど、MARLの大きな課題について論じる。
平均場MARLや一般和和設定などの現代的トピックを強調する。

提案手法

代表的な2つのMARLフレームワークとして、確率ゲームと広義形式ゲームを提示する。
マルチエージェント文脈における値ベースおよび方策ベースのMARL手法を説明する。
MARLの解概念としてのナッシュ均衡を論じる。
特別なSGタイプ（シングルコントローラ、SR-SIT）を導入し、計算容易性に関するメモを添える。
最近のMARL調査を調べて手法の分類学を構築する。
Q関数の因数分解、マルチエージェントのソフト学習、平均場MARL、オンラインMDPなどの現代的トピックを扱う。

実験結果

リサーチクエスチョン

RQ1MARLをモデル化するために使用される基本的なゲーム理論的定式化は何か？
RQ2確率ゲームおよび広義形式ゲームフレームワークの下でMARLを解く主なアルゴリズム系は何か？
RQ3最近の進歩は非定常性・スケーラビリティ・多目的学習といった課題にどのように対処しているか？
RQ4零和、一般和和、平均場設定に分類するとどうなり、それぞれのカテゴリに適した手法は何か？
RQ5現在のMARL調査から導かれる未解決の方向性と今後の研究機会は何か？

主な発見

本論文はゲーム理論からのMARLの体系的で自己完結型の取り扱いを提供し、基礎と現代的手法を橋渡しする。
確率ゲームと広義形式ゲームの両方をコアなMARL定式化として扱い、ナッシュ均衡などの解概念を論じる。
組合せ的複雑さ・非定常性・多くのエージェントに伴うスケーラビリティといった重要な課題を特定・解説する。
値ベース・方策ベース・アクター・クリティック手法を含む広範なアルゴリズムアプローチをマルチエージェント設定で調査する。
平均場MARL・確率的ポテンシャルゲーム・オンラインMDPなどの高度なトピックを紹介し、今後の研究への示唆を論じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。