QUICK REVIEW

[論文レビュー] Learning to Share and Hide Intentions using Information Regularization

Daniel Strouse, Max Kleiman‐Weiner|arXiv (Cornell University)|Aug 6, 2018

Reinforcement Learning in Robotics被引用数 28

ひとこと要約

本稿では、他のエージェントのモデルや相互作用を必要とせずに、非対称情報ゲームにおける意図の共有や隠蔽を学習できる情報理論的正則化手法を提案する。方策勾配法を用いて、状態下での目的と行動、または状態と目的の間の相互情報量を最適化することで、協力（意図の明示）または競争（意図の隠蔽）の両方が可能となり、キーやドアゲーム、ナビゲーションゲームにおいて、協調性や競争優位性の向上が明確に示された。

ABSTRACT

Learning to cooperate with friends and compete with foes is a key component of multi-agent reinforcement learning. Typically to do so, one requires access to either a model of or interaction with the other agent(s). Here we show how to learn effective strategies for cooperation and competition in an asymmetric information game with no such model or interaction. Our approach is to encourage an agent to reveal or hide their intentions using an information-theoretic regularizer. We consider both the mutual information between goal and action given state, as well as the mutual information between goal and state. We show how to optimize these regularizers in a way that is easy to integrate with policy gradient reinforcement learning. Finally, we demonstrate that cooperative (competitive) policies learned with our approach lead to more (less) reward for a second agent in two simple asymmetric information games.

研究の動機と目的

他のエージェントのモデルや相互作用がなくても、非対称情報ゲームにおける協力的または競争的戦略を学習できる手法を開発すること。
報酬関数が不一致である場合に、行動が人間の期待に整合し解釈可能であるようにエージェントを訓練する課題に対処すること。
共同タスク（例：協調や競争）のパフォーマンスを向上させるために、意図を明示または隠蔽する方法を可能にすること。
深層強化学習および方策勾配法と互換性があり、スケーラブルで微分可能なフレームワークを提供すること。

提案手法

本手法は、2つの情報理論的正則化項を導入する：状態下での目的と行動の間の相互情報量（$I_{\text{action}}$）、および状態下での目的と状態の間の相互情報量（$I_{\text{state}}$）。
これらの正則化項は、目的付き方策とベース方策のKLダイバージェンスの変分近似を用いて最適化され、方策勾配法による微分可能な学習が可能になる。
学習目的関数は、エージェントの報酬と正則化項 $\beta I$ の組み合わせであり、$\beta$ が報酬最大化と情報開示／隠蔽のトレードオフを制御する。
連続的な行動や状態に対しては、関数近似とKLダイバージェンスの解析的または確率的近似（例：連続的行動におけるガウス方策）が用いられる。
標準的な方策勾配フレームワークに統合され、他のエージェントの明示的モデルが不要なエンドツーエンドの学習が可能になる。
本手法は、空間的ナビゲーションゲームと非対称な目的知識および経路制約を有するキーやドアゲームの2つの環境で検証された。

実験結果

リサーチクエスチョン

RQ1直接の相互作用や相手エージェントのモデルがなくても、友人と協力するための意図を明示することで、エージェントは協調を学習できるか？
RQ2マルチエージェント環境において、戦略的に意図を隠すことで、相手をだますか、戦略的に上回ることができるか？
RQ3情報理論的正則化を用いて、スケーラブルで微分可能な方法で報酬最大化と意図の開示・隠蔽をバランスさせることは可能か？
RQ4目的と行動／状態間の情報フローを制御することで、協調的および競争的状況における下流のパフォーマンスにどのような影響を与えるか？

主な発見

β = 0.25（情報共有を奨励）で学習した場合、キーやドアゲームにおけるアリスの方策は、常に最短経路を経由し、目的に特化したキーピックアップのみを実行し、100%のエピソードでボブがアリスに勝つか同点になることが確認された。
β = -0.25（情報隠蔽を奨励）で学習した場合、アリスは初期化の約50%でマスターキー経由の長距離経路を取るよう学習し、ボブの成功確率を顕著に低下させた。
キーやドアゲームにおいて、アリスがマスターキーを使用した際、ボブの勝利／同点率は50%未満に低下し、アリスが意図を遅れて開示することで競争優位性を獲得したことが示された。
空間的ナビゲーションゲームでは、正のβで学習した協調的方策は高い連携報酬を達成したが、負のβで学習した競争的方策は第二エージェントの報酬を低下させ、本手法による意図開示の制御が有効であることが確認された。
本手法により、エージェントは単独学習中に即時の報酬を放棄することで、相互作用環境における長期的戦略的優位性を獲得できた。
関数近似と変分推論を用いることで、連続的状態および行動へも一般化可能であり、スケーラビリティと微分可能性を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。