QUICK REVIEW

[論文レビュー] Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Sanmit Narvekar, Bei Peng|arXiv (Cornell University)|Mar 10, 2020

Reinforcement Learning in Robotics参考文献 114被引用数 228

ひとこと要約

この論文は、強化学習におけるカリキュラム学習の形式的枠組みを提案し、既存の手法を調査し、今後の研究課題と方向性を特定する。

ABSTRACT

Reinforcement learning (RL) is a popular paradigm for addressing sequential decision tasks in which the agent has only limited environmental feedback. Despite many advances over the past three decades, learning in many domains still requires a large amount of interaction with the environment, which can be prohibitively expensive in realistic scenarios. To address this problem, transfer learning has been applied to reinforcement learning such that experience gained in one task can be leveraged when starting to learn the next, harder task. More recently, several lines of research have explored how tasks, or data samples themselves, can be sequenced into a curriculum for the purpose of learning a problem that may otherwise be too difficult to learn from scratch. In this article, we present a framework for curriculum learning (CL) in reinforcement learning, and use it to survey and classify existing CL methods in terms of their assumptions, capabilities, and goals. Finally, we use our framework to find open problems and suggest directions for future RL curriculum learning research.

研究の動機と目的

RLタスクとサンプルの一般的で形式的なカリキュラムの概念を定義する。
表現、転送、適応性、評価指標に基づいてカリキュラム学習アプローチを分類する。
RLカリキュラムにおけるタスク生成、シーケンス化、転送の既存手法を調査する。
RLカリキュラム学習におけるギャップ、未解決の問題、および今後の方向性を特定する。

提案手法

サンプル集合へ写像関数 g を用いた、タスクサンプルまたはタスク上の有向非巡回グラフとしてカリキュラムを形式化する。
実務的な利用を簡便にするために、単一タスク、タスクレベル、およびシーケンスカリキュラムを区別する。
転移学習の評価指標をカリキュラム設定に拡張し、弱転移と強転移の考慮を含める。
カリキュラムアプローチを、タスク生成、表現、転送手法、シーケンサ、適応性、評価、適用領域の7次元に沿って分類する。
RLカリキュラム内で用いられるタスク生成、シーケンスアルゴリズム（シーケンス化を重視）、転移学習手法を調査する。
カリキュラム設計の停止基準とコスト考慮を用いてカリキュラムを比較するための枠組みを提供する。

実験結果

リサーチクエスチョン

RQ1強化学習におけるカリキュラムとは何か、RLタスクのためにどのように表現できるか。
RQ2RL設定内でカリキュラムをどのように生成、シーケンス化、評価できるか。
RQ3カリキュラム内のタスク間でどのような転送メカニズムが用いられ、学習にどのように影響するか。
RQ4カリキュラムはどう分類すべきか、RLカリキュラム学習にまだどのような未解決問題が残っているか。

主な発見

サンプルまたはタスクのグラフとして表現できる、シンクノードを持つ一般的なカリキュラム枠組みを提案する。
カリキュラムは静的にも適応的にもなり得て、評価はターゲットタスクの性能に加えてカリキュラム設計コストを考慮すべきである。
既存の多くの研究はシーケンス化に焦点を当てており、タスク生成と転移手法も調査・分類されている。
文献全体にわたる体系的分類を可能にする7つの次元が提案される。
カリキュラム生成は多くの場合人間設計のカリキュラムに依存しており、自動化手法の探索が進んでいる。
RLカリキュラム学習における未解決問題と今後の方向性が特定されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。