QUICK REVIEW

[論文レビュー] A Survey of Generalisation in Deep Reinforcement Learning

Robert Kirk, Amy Zhang|arXiv (Cornell University)|Nov 18, 2021

Reinforcement Learning in Robotics参考文献 172被引用数 64

ひとこと要約

本調査は、深層強化学習における一般化を理解するための統一的フレームワークを提供し、未確認環境における方策の過適合を解消するためのベンチマークと手法を分類する。オンラインRLと報酬関数の変動に焦点を当てた改善されたベンチマークの導入を提唱し、今後の進展のためにはオンライン適応とRL特有の解決策の活用を推奨する。

ABSTRACT

The study of generalisation in deep Reinforcement Learning (RL) aims to produce RL algorithms whose policies generalise well to novel unseen situations at deployment time, avoiding overfitting to their training environments. Tackling this is vital if we are to deploy reinforcement learning algorithms in real world scenarios, where the environment will be diverse, dynamic and unpredictable. This survey is an overview of this nascent field. We provide a unifying formalism and terminology for discussing different generalisation problems, building upon previous works. We go on to categorise existing benchmarks for generalisation, as well as current methods for tackling the generalisation problem. Finally, we provide a critical discussion of the current state of the field, including recommendations for future work. Among other conclusions, we argue that taking a purely procedural content generation approach to benchmark design is not conducive to progress in generalisation, we suggest fast online adaptation and tackling RL-specific problems as some areas for future work on methods for generalisation, and we recommend building benchmarks in underexplored problem settings such as offline RL generalisation and reward-function variation.

研究の動機と目的

深層強化学習における一般化問題のための統一的フォーマリズムと用語を確立すること。
RLにおける一般化を評価するために使用される既存のベンチマークを分類すること。
未確認環境にわたる方策の一般化を向上させるために向けた現在の手法をレビューすること。
特に手続き的コンテンツ生成に関して、現在のベンチマーク手法の限界を特定すること。
今後の研究の方向性を提案すること、具体的には高速なオンライン適応と、未だ十分に検討されていない設定、例えばオフラインRLや報酬関数の変動を含むこと。

提案手法

RL一般化における用語と問題フレーミングの標準化を図る統一的フォーマリズムを提案する。
設計原理と一般化の目的に基づいて、既存のベンチマークを分類する。
ドメインランダマイゼーションやメタRLアプローチなど、最先端の一般化を指向する手法をレビューする。
ベンチマーク手法を批判的に評価し、手続き的コンテンツ生成だけでは意味のある一般化評価に不十分であると主張する。
オフラインRLや報酬関数の変動といった未だ検討が不足している設定において、ベンチマークを設計することを提言する。これにより、現実世界の展開をよりよく反映できるようになる。

実験結果

リサーチクエスチョン

RQ1現実世界への展開を想定した深層強化学習における、頑健な一般化を達成するための主な課題は何か？
RQ2現在のRL一般化ベンチマークは、設計と効果性においてどのように異なるか？
RQ3手続き的コンテンツ生成は、RL一般化のベンチマークにおいて、どのような限界を有するか？
RQ4一般化を向上させるために、どの手法的アプローチが最も有望であるか？
RQ5今後のベンチマークと研究において、優先すべき未だ検討が不足している問題設定は何か？

主な発見

手続き的コンテンツ生成だけでは、実世界の分布シフトを反映しない可能性があるため、RLにおける一般化の意味のある評価には不十分である。
高速なオンライン適応は、動的環境における一般化を向上させる有望な方向性である。
現在のベンチマークは、オフラインRL や報酬関数の変動といった、現実世界の重要なシナリオを捉えていないことが多い。
現実世界の展開の複雑さを反映する、より多様で現実的なベンチマークの導入が求められる。
分布シフトや報酬の不一致といった、RL特有の課題に焦点を当てた、メソドロジカルな進展が分野全体に恩恵をもたらすだろう。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。