QUICK REVIEW

[論文レビュー] An empirical investigation of the challenges of real-world reinforcement learning

Gabriel Dulac-Arnold, Nir Levine|arXiv (Cornell University)|Mar 24, 2020

Reinforcement Learning in Robotics参考文献 133被引用数 52

ひとこと要約

この論文は九つの現実世界のRL課題を形式化し、realworldrl-suiteを用いて最先端エージェントへの影響を分析し、評価用のオープンソースベンチマークを提案します。

ABSTRACT

Reinforcement learning (RL) has proven its worth in a series of artificial domains, and is beginning to show some successes in real-world scenarios. However, much of the research advances in RL are hard to leverage in real-world systems due to a series of assumptions that are rarely satisfied in practice. In this work, we identify and formalize a series of independent challenges that embody the difficulties that must be addressed for RL to be commonly deployed in real-world systems. For each challenge, we define it formally in the context of a Markov Decision Process, analyze the effects of the challenge on state-of-the-art learning algorithms, and present some existing attempts at tackling it. We believe that an approach that addresses our set of proposed challenges would be readily deployable in a large number of real world problems. Our proposed challenges are implemented in a suite of continuous control environments called the realworldrl-suite which we propose an as an open-source benchmark.

研究の動機と目的

MDPの枠組みで現実世界のRL課題とその直観を識別・定義する。
形式的定義を提供し、学習アルゴリズムへの各課題の影響を分析する。
リアルワールドRLスイート(realworldrl-suite)を拡張して課題を研究するベンチマークを開発する。
課題を横断して最先端エージェント(DMPOとD4PG)を評価しベースラインを確立する。
実世界に近い設定での再現可能なテストを可能にするガイドとリソースを提供する。

提案手法

MDPフレームワーク内で九つの現実世界のRL課題を正式に定義する。
perturbationsを用いてDeepMind Control Suiteを拡張し、realworldrl-suiteに難易度の高い環境を実装する。
複数のタスクで難易度を変え、2つのSOTAエージェント(DMPOと D4PG)をベンチマークする。
サンプル効率と安定性を評価するために、事前収束後悔(pre-convergence regret)と収束後不安定性(post-convergence instability)の指標を導入する。
ベースライン比較のために課題のサブセットを組み合わせたベンチマークタスクを調整・組み合わせる。
実験を再現するためのオープンソースコードとドキュメントを提供する。

実験結果

リサーチクエスチョン

RQ1各現実世界の課題はRLの学習性能とサンプル効率にどのような影響を与えるか？
RQ2これらの現実世界の課題下でDMPOとD4PGはどのように比較されるか？
RQ3課題を1つのベンチマークタスクに組み合わせることの影響は？
RQ4連続制御タスク全般で、どの課題が安定性と収束性にとって最も有害か？

主な発見

DMPOはすべてのタスクで事前収束後悔(pre-convergence regret)がD4PGより高い。
D4PGは一般にサンプル効率が高く、多くの場合、DMPOより安定した収束を示す。
行動・観測・報酬の遅延を増やすと性能が低下し、特に行動/観測遅延が影響が大きい。
高次元またはノイズの多いダミー状態次元を追加すると収束が遅くなる可能性があるが、学習者は一部のタスクでほぼ最適性能に達することができる。
複合的な現実世界チャレンジベンチマークは、穏やかな攪乱で最先端エージェントが急速に失敗することを示し、より頑健な方法の必要性を浮き彫りにする。
本論文は、これらの課題の評価を標準化するオープンソースのベンチマーク(realworldrl-suite)を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。