QUICK REVIEW

[論文レビュー] Gotta Learn Fast: A New Benchmark for Generalization in RL

Alex Nichol, Vicki Pfau|arXiv (Cornell University)|Apr 10, 2018

Reinforcement Learning in Robotics参考文献 21被引用数 85

ひとこと要約

Sonic the Hedgehog を基盤とした RL ベンチマーク（Gym Retro Sonic）を導入。transfer と few-shot generalization を評価する train/test 分割を備え、ベースライン結果を提示。

ABSTRACT

In this report, we present a new reinforcement learning (RL) benchmark based on the Sonic the Hedgehog (TM) video game franchise. This benchmark is intended to measure the performance of transfer learning and few-shot learning algorithms in the RL domain. We also present and evaluate some baseline algorithms on the new benchmark.

研究の動機と目的

タスク間一般化を測定するために、明示的な train/test 分割を伴う RL ベンチマークの必要性を喚起する。
Sonic レベルという複数の類似タスクから構築された、メタラーニングに適した RL データセットを提案する。
RL における転移と few-shot 学習能力を測るためのベースラインアルゴリズムを提供する。

提案手法

Gym Retro を用いた Sonic ベースの RL ベンチマークを構築し、58 の保存済みレベル状態に対する train/test 分割を適用。
現実的なタイミングと確率性を模倣するためにフレームスキップと sticky frame skip を使用。
水平的な進行に基づく報酬と、迅速な完了を促す完了ボーナスを定義。
Rainbow（DQN 変種）、PPO、非視覚的な JERK ベースラインを転移/few-shot ベンチマークとして評価。
複数レベルでの訓練がテストレベルの学習を初期化する、ジョイント訓練（転移）設定を実装。
比較のためのレベル別および総合の詳細な性能指標を提供。

実験結果

リサーチクエスチョン

RQ1固定分布の Sonic ゲームにおける類似タスク（レベル）間で RL エージェントはどれだけ一般化できるか？
RQ2転移学習と few-shot RL アプローチは、未見のレベルでスクラッチ学習と比較してサンプル複雑さを減らせるか？
RQ3どのベースラインの転移戦略（ジョイント訓練、特徴再利用）が最も効果的にテスト性能を向上させるか？

主な発見

人間プレイヤーはベースラインの中で最も高い総合テストスコアを達成（7438.2 ± 624.2）。
ジョイント訓練転移（Joint PPO/Rainbow）は、非ジョイント訓練ベースラインより一般にテスト性能を向上させ、Joint PPO が 3926.3 ± 78.1 の総合（テスト）を、Joint Rainbow が 3704.2 ± 151.1 を達成。
報酬前処理を用いた Rainbow はテストセットで標準の PPO を上回る（Rainbow: 2748.6 ± 102.2 vs PPO: 1488.8 ± 42.8）。
JERK は非深層学習のスクリプト型アプローチで、構造化探索によって時に vanilla PPO を上回るなど競争力を示す（1904.0 ± 21.9 総合）。
Joint Rainbow および Joint PPO は訓練レベルからテストレベルへの転移を示し、一定の一般化を示すが、最良の転移はなお人間の性能には及ばない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。