QUICK REVIEW

[論文レビュー] Extending the OpenAI Gym for robotics: a toolkit for reinforcement learning using ROS and Gazebo

Iker Zamora, Nestor Gonzalez Lopez|arXiv (Cornell University)|Aug 19, 2016

Reinforcement Learning in Robotics参考文献 2被引用数 90

ひとこと要約

この論文は、ロボット工学における強化学習のベンチマーク化ツールキットを構築するために、OpenAI GymにROSとGazeboを統合した。これにより、Q-LearningおよびSarsaを用いたシミュレーションベースのエージェント学習が可能になった。3,000エピソードの学習後、Sarsaでは累積報酬が最大3,500に達し、Q-Learningでは2,500に達した。Q-Learningはより速い学習を示したが、Sarsaはより滑らかで安全な行動を示した。

ABSTRACT

This paper presents an extension of the OpenAI Gym for robotics using the Robot Operating System (ROS) and the Gazebo simulator. The content discusses the software architecture proposed and the results obtained by using two Reinforcement Learning techniques: Q-Learning and Sarsa. Ultimately, the output of this work presents a benchmarking system for robotics that allows different techniques and algorithms to be compared using the same virtual conditions.

研究の動機と目的

ロボット強化学習のための標準化されたベンチマーク環境の不足に対処すること。
OpenAI GymをROSとGazeboと統合し、シミュレーションにおけるスケーラブルで安全かつ再現可能な強化学習の訓練を可能にすること。
標準化されたロボット環境を用いて、同一の仮想条件下で強化学習アルゴリズムの比較を可能にすること。
訓練済みポリシーをシミュレーションから現実のロボットシステムに移行することを支援すること。
シミュレーションベースの「メンタルリハーサル」により、現実世界での強化学習の訓練にかかるコスト、時間、リスクを低減すること。

提案手法

OpenAI GymのAPIを拡張し、ROSをGymとGazebo間の通信のミドルウェアとして用いて、ロボット環境をサポートする。
Gazeboを物理的機能を備えた3次元シミュレータとして使用し、URDFおよびROSパッケージを用いてロボットモデルを定義可能にする。
Turtlebot、Erle-Rover、Erle-Copterの3台のロボットに対して、それぞれ異なるセンサーや世界設定を持つ6つの異なる環境を実装する。
Q-LearningおよびSarsaアルゴリズムを、α=0.2、γ=0.9、ε=0.9のハイパーパrameterを用い、ε-減少を適用してナビゲーションポリシーを学習する。
270°の視野角から得られるLIDARセンサデータを5つの整数値に離散化し、状態空間の複雑さを低減する。
進捗に対しては正の報酬、衝突や壁に近づいた場合には負の報酬を与える報酬形状スキームを採用する。

実験結果

リサーチクエスチョン

RQ1OpenAI Gym、ROS、Gazeboを用いて、ロボット強化学習のための標準化されたシミュレーションベースのベンチマーク環境を構築可能か？
RQ2Q-LearningとSarsaは、シミュレートされたロボットナビゲーションタスクにおいて、学習速度、安定性、最終的パフォーマンスの観点でどのように比較できるか？
RQ3単純なLIDARベースの観測空間は、離散化された環境において、効果的なナビゲーションポリシーの学習を可能にする程度はどの程度か？
RQ4Sarsa（オンポリシー法）を用いることで、現実世界への移行状況において、Q-Learningに比べてより安全で、より効果的な行動が得られるか？
RQ5ROSとGazeboの統合により、コストのかかる現実世界の試行を減らすことができる効率的かつスケーラブルな強化学習の訓練が可能か？

主な発見

Sarsaは3,000エピソード後に最大3,500の累積報酬を達成したのに対し、Q-Learningは約2,500にとどまった。これは、テスト環境においてSarsaのポリシー性能が優れていることを示している。
Q-Learningはより速い学習収束を示し、2,400エピソード目には平均報酬が700を超えた。一方、Sarsaは2,600エピソード目までに同程度の水準に達した。
Sarsaは滑らかでより慎重な行動を示し、壁の近くでの危険なマニピュレーションを避けた。一方、Q-Learningはより攻撃的で不規則な行動を示した。
200エピソードごとの平均報酬を比較したところ、Sarsaは2,400–2,600エピソードの間で平均698を記録した。一方、Q-Learningは2,400–2,600エピソードの間で平均776を記録した。両者とも高いパフォーマンスを示した。
個々のエピソードの報酬に高いばらつきが見られたが、平均報酬曲線と表データから、両アルゴリズムが障害物回避ポリシーを成功裏に学習したことが確認された。
5つの値に離散化されたLIDAR入力の使用により、過度な計算負荷を伴わずに効果的な学習が可能となった。これは、リアルタイム応用に適した手法であることを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。