QUICK REVIEW

[論文レビュー] OpenAI Gym

Greg Brockman, Vicki Cheung|arXiv (Cornell University)|Jun 5, 2016

Educational Games and Gamification被引用数 632

ひとこと要約

OpenAI Gym は、共通のインターフェースを持つ環境ライブラリと結果を共有・比較するウェブサイトを提供する強化学習ベンチマークツールキットです。

ABSTRACT

OpenAI Gym is a toolkit for reinforcement learning research. It includes a growing collection of benchmark problems that expose a common interface, and a website where people can share their results and compare the performance of algorithms. This whitepaper discusses the components of OpenAI Gym and the design decisions that went into the software.

研究の動機と目的

共通のインターフェースを持つ便利で拡張可能な RL 環境のコレクションを提供する。
環境をバージョン管理し学習データを監視することで再現性のあるベンチマークを可能にする。
コミュニティのスコアボードと Writeups を通じてコード、結果、再現性の共有を促進する。
RL アルゴリズムの評価において、サンプル効率と最終的な性能のバランスを取る。

提案手法

環境を中核の抽象として定義し、異なるエージェントスタイルに対応できるように固定されたエージェントインターフェースを除外する。
Monitor を用いて手順、リセット、学習曲線のビデオデータをオプションで記録する。
結果がアップデートを超えて意味を持ち続けるよう厳格に環境をバージョン管理する（例：CartPole-v0 から CartPole-v1 へ）。
クラシック制御、アルゴリズム的タスク、ALE を介した Atari、ボードゲーム、MuJoCo、Box2D、VizDoom などのロボティクスシミュレーターを含む多様な環境群を提供する。
結果を提出できるスコアボード、ソースコードリンク、再現手順を備えたウェブサイトを提供する。

実験結果

リサーチクエスチョン

RQ1多様な RL タスクに対して共通のインターフェースを持つことは、アルゴリズムの公正な比較を促進できるのか。
RQ2再現性と長期的なベンチマークの意味を支える設計の決定はどのようなものか。
RQ3コミュニティ主導のプラットフォームは、RL ベンチマークの学習進捗、最終性能、資源使用のバランスを効果的に取れるのか。
RQ4過剰適合を特定タスクや特定バージョンへと向けさせないよう、環境をどのようにバージョン管理し監視すべきか。

主な発見

統一された環境中心のフレームワークは、エージェントインターフェースの違いに対して柔軟でありつつ、さまざまな RL 問題をサポートする。
バージョニングと監視は、再現可能で解釈可能なベンチマーク結果を保証するうえで中心的である。
クラシック制御・アルゴリズム・Atari・ボードゲーム・ロボティクスシミュレーションを含む多様な環境群が提供される。
このプラットフォームは、再現性を支援するコードと Writeups の共有を重視し、リーダーボードの優劣競争よりも再現性の向上を支える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。