Skip to main content
QUICK REVIEW

[論文レビュー] Behaviour Suite for Reinforcement Learning

Ian Osband, Yotam Doron|arXiv (Cornell University)|Aug 9, 2019
Reinforcement Learning in Robotics参考文献 48被引用数 36
ひとこと要約

bsuite はターゲットを絞った、スケーラブルな RL 実験のコレクションであり、エージェントの挙動を評価・分析してコアな RL 能力を理解するオープンソースのツールキットです。コードベースを横断して原則的な診断と再現可能な分析を提供します。

ABSTRACT

This paper introduces the Behaviour Suite for Reinforcement Learning, or bsuite for short. bsuite is a collection of carefully-designed experiments that investigate core capabilities of reinforcement learning (RL) agents with two objectives. First, to collect clear, informative and scalable problems that capture key issues in the design of general and efficient learning algorithms. Second, to study agent behaviour through their performance on these shared benchmarks. To complement this effort, we open source github.com/deepmind/bsuite, which automates evaluation and analysis of any agent on bsuite. This library facilitates reproducible and accessible research on the core issues in RL, and ultimately the design of superior learning algorithms. Our code is Python, and easy to use within existing projects. We include examples with OpenAI Baselines, Dopamine as well as new reference implementations. Going forward, we hope to incorporate more excellent experiments from the research community, and commit to a periodic review of bsuite from a committee of prominent researchers.

研究の動機と目的

  • 明確で有益かつスケーラブルな実験を提供し、主要な RL 能力を診断する。
  • RL エージェントとコードベース間の再現可能な評価と比較を可能にする。
  • 探索、記憶、クレジット割り当てなど基本的な RL の問題を分離して研究する。

提案手法

  • 固定された環境・相互作用レジーム・分析パイプラインを備えた診断的 RL 実験のスイートを定義する。
  • 各タスクでのエージェント性能を [0,1] スケールで評価し、迅速な比較を可能にする。
  • 再現可能な研究を促進するために、オープンソース実装、リファレンスベースライン、自動化分析ノートブックを提供する。
  • bsuite 実験がターゲット化、単純、挑戦的、スケーラブル、かつ高速になるよう設計されていることを説明する。

実験結果

リサーチクエスチョン

  • RQ1ターゲットを絞った実験によって分離・測定できるコア RL 能力は何か。
  • RQ2記憶と探索を評価する診断タスクで、異なる RL アルゴリズムはどのように性能を発揮するか。
  • RQ3共通のベンチマークライブラリは異なる RL コードベース間で再現可能な評価を可能にするか。
  • RQ4問題サイズが大きくなるにつれて、診断タスクにおけるアルゴリズムのスケーリング特性はどうなるか。

主な発見

  • Memory-length 実験は、複数ステップの記憶タスクにおいて再帰方策が前方伝播型より優れていることを示し、明確なスケーリング挙動を持つ。
  • DQN および Bootstrapped DQN は1ステップを超える記憶長に苦戦する一方、A2C はランダム性の増加前のカットオフまで強い性能を示す。
  • Deep Sea 探索は深い探索の必要性を浮き彫りにし、Bootstrapped DQN はより大きな問題サイズに対して優れたスケーラビリティを提供する。
  • .bsuite はレーダー図による迅速で解釈しやすい要約と、複数の実験を横断する統一スコアリング機構を提供する。
  • オープンソースのツールは既存の RL コードベースとの容易な統合を可能にし、再現可能な分析を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。