QUICK REVIEW

[論文レビュー] A Q-values Sharing Framework for Multiagent Reinforcement Learning under Budget Constraint

Changxi Zhu, Ho-fung Leung|arXiv (Cornell University)|Nov 28, 2020

Reinforcement Learning in Robotics参考文献 28被引用数 7

ひとこと要約

本稿では、通信予算制約下における協調的マルチエージェント強化学習において、エージェントが自己の自信度と探索レベルに基づき、動的にQ値の要求または共有を決定するPartaker-Sharer Advising Framework（PSAF）を提案する。PSAFは、特定の高信頼度のQ値の共有に焦点を当てることで、限られた通信予算下でも収束を迅速化し、行動助言手法や他のQ値共有手法を上回る性能を発揮する。

ABSTRACT

In teacher-student framework, a more experienced agent (teacher) helps accelerate the learning of another agent (student) by suggesting actions to take in certain states. In cooperative multiagent reinforcement learning (MARL), where agents need to cooperate with one another, a student may fail to cooperate well with others even by following the teachers' suggested actions, as the polices of all agents are ever changing before convergence. When the number of times that agents communicate with one another is limited (i.e., there is budget constraint), the advising strategy that uses actions as advices may not be good enough. We propose a partaker-sharer advising framework (PSAF) for cooperative MARL agents learning with budget constraint. In PSAF, each Q-learner can decide when to ask for Q-values and share its Q-values. We perform experiments in three typical multiagent learning problems. Evaluation results show that our approach PSAF outperforms existing advising methods under both unlimited and limited budget, and we give an analysis of the impact of advising actions and sharing Q-values on agents' learning.

研究の動機と目的

エージェントのポリシーが常に変化する状況において、行動助言の非効率性を是正すること。
動的な環境やポリシーの変化により、行動助言がポリシー知識を効果的に転送できないという限界を克服すること。
通信予算制約下で、的確なQ値交換を通じてより速い学習を実現する知識共有メカニズムを開発すること。
学習効率を最大化し、通信オーバーヘッドを最小限に抑えるために、高信頼度かつ有用なQ値のみを共有すること。
特にめったに訪問されない状態においても、経験豊富なチームメイトが事前に学習したQ値を活用することで、エージェントが最適に行動できるようにすること。

提案手法

自信度と探索レベルに基づき、エージェントが「要求者（partaker）」または「提供者（sharer）」として動的に役割を割り当てる仕組みを導入する。
訪問回数が少なく、現在のQ値に対する自信が低い場合に、要求者がQ値を要求するかどうかを決定するための信頼度関数Paskを用いる。
要求者と提供者の両方の信頼度関数を別々に定義し、Q値の信頼性を共有または要求の前段階で評価する。
提供者が要求者よりも顕著に多くの回数、最大Q値を更新していることを要件とすることで、高品質で安定したQ値共有を保証する。
学習プロセス全体で許容されるQ値共有インタラクションの数に制限を設ける、予算制約型のメカニズムを実装する。
Q値共有をQ学習の更新式に統合し、要求者が共有されたQ値を完全なポリシー転送なしに直接ポリシー学習に利用できるようにする。

実験結果

リサーチクエスチョン

RQ1通信予算が無制限および制限されている状況下で、Q値共有は協調的マルチエージェント強化学習（MARL）において行動助言と比べてどのように性能を発揮するか？
RQ2通信予算制約下で、要求者がいつQ値を要求し、提供者がいつQ値を提供すべきかを決定する基準は何か？
RQ3Q値共有は、動的かつ相互に適応するエージェントを有する協調的MARLタスクにおいて、学習時間を短縮し、性能を向上させることができるか？
RQ4Q値の信頼度がマルチエージェント環境における知識転送の効果にどのように影響するか？
RQ5少数の高信頼度Q値を共有するのと、多数またはすべてのQ値を共有するのとでは、学習効率と収束速度にどのような影響があるか？

主な発見

PSAFは、Predator-Prey、Half Field Offense、Spread Gameの3つのベンチマークタスクにおいて、すべての状況で行動助言手法を顕著に上回る。特に通信予算が制限されている状況で顕著な優位性を示す。
通信予算が無制限の場合、PSAFはHalf Field Offenseタスクにおいて、最先端のQ値共有手法AdhocTD-Qと同等の性能を達成する。
予算が減少する状況下でも、PSAFは安定した性能を維持するが、行動助言手法は急激に性能を低下させるため、通信効率に優れていることが示された。
行動助言の性能は予算の大きさに強く依存するが、PSAFは極めて少ない共有インタラクション数で高い性能を達成する。
Q値共有は、要求者の訪問回数が少なく、提供者の信頼度が高い状態で共有される際に最も効果的であり、学習への干渉を最小限に抑える。
本フレームワークにより、まれな状態での学習が加速され、エージェントが異なるタイミングで参加するか、経験レベルが異なる状況でも収束が早まる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。