QUICK REVIEW

[論文レビュー] GPU-Accelerated Robotic Simulation for Distributed Reinforcement\n Learning

Jacky Liang, Viktor Makoviychuk|arXiv (Cornell University)|Oct 12, 2018

Reinforcement Learning in Robotics被引用数 74

ひとこと要約

要約: この論文は NVIDIA Flex をベースにした GPU 加速型 RL シミュレーションフレームワークを紹介し、連続的な移動タスクの訓練を行い、単一 GPU での訓練を高速化し、複数 GPU でのスケーラブルな性能を達成します。

ABSTRACT

Most Deep Reinforcement Learning (Deep RL) algorithms require a prohibitively\nlarge number of training samples for learning complex tasks. Many recent works\non speeding up Deep RL have focused on distributed training and simulation.\nWhile distributed training is often done on the GPU, simulation is not. In this\nwork, we propose using GPU-accelerated RL simulations as an alternative to CPU\nones. Using NVIDIA Flex, a GPU-based physics engine, we show promising\nspeed-ups of learning various continuous-control, locomotion tasks. With one\nGPU and CPU core, we are able to train the Humanoid running task in less than\n20 minutes, using 10-1000x fewer CPU cores than previous works. We also\ndemonstrate the scalability of our simulator to multi-GPU settings to train\nmore challenging locomotion tasks.\n

研究の動機と目的

Deep RL におけるサンプル効率の削減を GPU 上で環境シミュレーションを加速することにより動機づける。
GPU ベースの物理シミュレーションが連続制御タスクにおいて CPU ベースのシミュレーションを上回ることを示す。
GPU 加速 RL の複数 GPU・ノードへのスケーラビリティを示す。

提案手法

不連続ニュートン剛体ソルバーと最大座標形式を用いた社内 GPU ベースの物理エンジンを開発する。
GPU 上で数百〜数千のエージェントを並行して実行する OpenAI Gym 風のインターフェースを提供する。
オンライン観測 whitening を用いた適応学習率と安定性のための SELU 活性化を用いた PPO を実装する。
Horovod を用いた分散学習と NCCL ベースの allreduce により GPU 間の勾配を同期する。
Ant、Humanoid、HFH 系の移動タスクで単一 GPU およびマルチ GPU 構成をベンチマークする。

実験結果

リサーチクエスチョン

RQ1GPU 加速物理シミュレーションは CPU ベースのシミュレータと比べて連続制御タスクの RL 訓練をより速く可能にするか。
RQ2複雑な移動タスクにおいて GPU ベースの RL フレームワークは複数の GPU およびノードでどの程度スケールするか。
RQ3単一 GPU とマルチ GPU 設定で人体移動ポリシーを訓練する際の性能と訓練時間の特性はどうなるか。

主な発見

Algorithm	CPU Cores	GPUs	Time (mins)
Evolution Strategies	1440	-	10
Augmented Random Search	48	-	21
Distributed Prioritized Experience Replay	32	1	240
Proximal Policy Optimization w/ GPU Simulation (Ours)	1	1	16

1 台の機械と 1 GPU、1 CPU コアで Humanoid の実行を 20 分未満で訓練できる。
GPU シミュレーションは約 60 K フレーム/秒に到達可能で、約 750 人体を同時にシミュレート可能；エージェントごとの平均フレーム時間は < 0.02 ms。
マルチ GPU 実験は Humanoid でのスケーリングは限定的だが、HFH および Complex Terrain タスクでは速度向上が顕著。
CPU ベースの方法と比較して、GPU シミュレーションを用いた PPO ははるかに少ない CPU コアでより速い結果を達成する。
表 1 は資源-時間のトレードオフを比較する：CPU 単独の大規模クラスター vs. 1 GPU 1 CPU コアで Humanoid 実行を 16 分で達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。