QUICK REVIEW

[論文レビュー] Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Roberta Răileanu, Emily Denton|arXiv (Cornell University)|Feb 26, 2018

Reinforcement Learning in Robotics参考文献 32被引用数 68

ひとこと要約

SOM はエージェントが自分の方針を用いて相手の行動を予測することにより、協調的および対立的な二人プレイマーコフのマルコフゲームでポリシー学習を改善するオンラインで相手の隠れた目標をモデル化できる。

ABSTRACT

We consider the multi-agent reinforcement learning setting with imperfect information in which each agent is trying to maximize its own utility. The reward function depends on the hidden state (or goal) of both agents, so the agents must infer the other players' hidden goals from their observed behavior in order to solve the tasks. We propose a new approach for learning in these domains: Self Other-Modeling (SOM), in which an agent uses its own policy to predict the other agent's actions and update its belief of their hidden state in an online manner. We evaluate this approach on three different tasks and show that the agents are able to learn better policies using their estimate of the other players' hidden states, in both cooperative and adversarial settings.

研究の動機と目的

不完全情報のマルチエージェント RL における他者の意図についての推論を刺激する。
自己他モデル化（SOM）を導入し、相手エージェントの隠れた目標をオンラインで推定する。
相手エージェントの明示的なモデルを用いるとポリシーが改善されることを示す。
Mazebase 環境における協調タスクと対戦タスクの両方で SOM の有効性を示す。

提案手法

エージェントは、自分の状態、自分の目標、および相手の目標の推定を与えたときに、方針と価値を出力するニューラルネットワーク f を用いる。
行動用の f_self と相手の目標推定用の f_other の共有パラメータをもつ二つのネットワークを維持し、異なる順序で入力を供給する。
エージェント自身の方針を用いて離散的な目標変数 z_other を最適化することで相手の目標を推定し、微分可能な勾配を可能にする Gumbel-Softmax を用いる。
エピソードを通じて A3C ベースの学習により θ_self を更新するために、推論過程を通じて誤差逆伝播を行う。
ゲームステップごとに複数の推論ステップを用いて z_other を洗練させ、行動選択を改善する。

実験結果

リサーチクエスチョン

RQ1相手エージェントの隠れた目標を観測された行動からオンラインで正確に推定できるか。
RQ2環境のみのアプローチと比べて相手の目標を明示的にモデル化することがポリシー学習を改善するか。
RQ3協調と対戦の二-agent 設定で SOM はどのように機能するか。
RQ4推論ステップ数が目標精度と最終報酬に与える影響は？
RQ5協力/競合が異なる Mazebase タスク（Coin、Recipe、Door）で SOM は堅牢か。

主な発見

SOM はタスクを横断して相手エージェントの目標をオンライン推論できる、意味のある精度を示す。
相手エージェントをモデル化しないか、または暗黙的にしか予測しないベースラインよりも、いくつかのタスクで SOM が上回る。
Coin ゲームでは、目標を推定しないベースラインより高い報酬と相手の目標のより良い活用を SOM が実現する。
Recipe ゲームでは、SOM は NOM、IPP、SPP を大きく上回り、対戦設定では TOG の上限パフォーマンスに近づく。
Door ゲームでは、協力するために相手の目標を推定することを SOM が学習するが、両方の役割を学習する必要があるため利得は控えめになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。