QUICK REVIEW

[論文レビュー] Gossip-based Actor-Learner Architectures for Deep Reinforcement Learning

Mahmoud Assran, Joshua Romoff|arXiv (Cornell University)|Jun 1, 2019

Reinforcement Learning in Robotics被引用数 7

ひとこと要約

GALAは、深層強化学習におけるスケーラビリティと非同期通信を向上させる、ガスケットベースのピアツーピア型アーキテクチャである。複数のエージェント間で非同期通信を可能にすることで、サンプル効率とハードウェア利用効率を向上させる。同期のオーバーヘッドを低減することで、A2Cと同等の安定性と消費電力で、より高いフレームレートと優れた性能を達成する。

ABSTRACT

Multi-simulator training has contributed to the recent success of Deep Reinforcement Learning (Deep RL) by stabilizing learning and allowing for higher training throughputs. In this work, we propose Gossip-based Actor-Learner Architectures (GALA) where several actor-learners (such as A2C agents) are organized in a peer-to-peer communication topology, and exchange information through asynchronous gossip in order to take advantage of a large number of distributed simulators. We prove that GALA agents remain within an epsilon-ball of one-another during training when using loosely coupled asynchronous communication. By reducing the amount of synchronization between agents, GALA is more computationally efficient and scalable compared to A2C, its fully-synchronous counterpart. GALA also outperforms A2C, being more robust and sample efficient. We show that we can run several loosely coupled GALA agents in parallel on a single GPU and achieve significantly higher hardware utilization and frame-rates than vanilla A2C at comparable power draws.

研究の動機と目的

A2Cのような完全に同期的なアーキテクチャのスケーラビリティと計算非効率性を解決すること。
エージェント間の非同期的かつピアツーピア型通信を可能にすることで、マルチシミュレータ環境における学習の安定性とサンプル効率を向上させること。
複数の緩く結合されたエージェントを分散することで、1つのGPU上でより高いハードウェア利用効率とフレームレートを達成すること。
非同期通信下でもトレーニング中にGALAエージェントが互いにεボール内に留まることを証明すること。
同期の削減がA2Cと比較して、より優れた耐障害性とスケーラビリティをもたらすことを示すこと。

提案手法

エージェントはピアツーピアトポロジーに配置され、各アクトローナーはガスケットプロトコルを介して非同期に通信する。
ガスケット通信により、エージェントは不規則な間隔でモデルパラメータと勾配を交換し、同期のボトルネックを軽減する。
理論的分析により、トレーニング中にすべてのエージェントが互いにεボール内に留まることを保証することで、アーキテクチャは安定性を維持する。
複数のGALAエージェントを1つのGPU上に共存させることで、高いハードウェア利用効率とフレームレートを実現する。
A2Cの厳密な同期を避けるために、緩く結合された非同期更新を活用する。
通信オーバーヘッドを最小限に抑えつつ、複数の分散シミュレータにスケーリングできるように設計されている。

実験結果

リサーチクエスチョン

RQ1アクトローナー間の非同期的でガスケットベースの通信が、深層強化学習におけるトレーニングの安定性を維持できるか？
RQ2GALAのパフォーマンスは、サンプル効率とハードウェア利用効率の観点でA2Cと比べてどの程度優れているか？
RQ3同期のオーバーヘッドがなく、1つのGPU上に複数のGALAエージェントを効率的に共存させられるか？
RQ4ガスケットメカニズムは、非同期性が存在しても最適方策のεボール内での収束を保証するか？
RQ5同等の消費電力条件下で、GALAは完全に同期的なA2Cよりも高いフレームレートとスケーラビリティを達成できるか？

主な発見

GALAは、非同期通信下でもすべてのエージェントが互いにεボール内に留まることを保証することで、トレーニング中に安定性を維持する。
GALAは、バニラA2Cと比較して、1つのGPU上で顕著に高いハードウェア利用効率とフレームレートを達成する。
GALAはサンプル効率と耐障害性においてA2Cを上回り、環境にわたる学習の安定性が優れていることを示している。
複数の緩く結合されたGALAエージェントを、A2Cと同等の消費電力で1つのGPU上で並列実行できる。
同期要件を低減することで、GALAはA2Cよりも高いトレーニングスループットと優れたスケーラビリティを達成する。
ガスケットメカニズムにより、中央集権的な調整なしにエージェント間で効果的なパラメータ共有が可能となり、分散環境でのスケーラビリティが向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。