[論文レビュー] Automatic Goal Generation for Reinforcement Learning Agents
本論文は Goal GAN を導入します。これは自動的に中間難易度の目標を生成する敵対的フレームワークで、一つのポリシーを訓練して多様で連続的な目標の集合を達成させ、疎な報酬で自動的なカリキュラムを達成し、サンプル効率を向上させます。
Reinforcement learning is a powerful technique to train an agent to perform a task. However, an agent that is trained using reinforcement learning is only capable of achieving the single task that is specified via its reward function. Such an approach does not scale well to settings in which an agent needs to perform a diverse set of tasks, such as navigating to varying positions in a room or moving objects to varying locations. Instead, we propose a method that allows an agent to automatically discover the range of tasks that it is capable of performing. We use a generator network to propose tasks for the agent to try to achieve, specified as goal states. The generator network is optimized using adversarial training to produce tasks that are always at the appropriate level of difficulty for the agent. Our method thus automatically produces a curriculum of tasks for the agent to learn. We show that, by using this framework, an agent can efficiently and automatically learn to perform a wide set of tasks without requiring any prior knowledge of its environment. Our method can also learn to achieve tasks with sparse rewards, which traditionally pose significant challenges.
研究の動機と目的
- 多様で連続的な目標の集合に到達できるポリシーの学習を動機づける。
- エージェントの現在の能力に合った自動カリキュラム生成を可能にする。
- 手作業で設計された報酬を用いず、疎な報酬でも機能する目標条件付きRLフレームワークを開発する。
- サンプル効率の改善と、高次元の目標空間へのスケーラビリティを実証する。
提案手法
- 到達する目標に対する二値報酬を用い、状態空間のパラメータ化された部分集合として目標を定義する。
- 現在のポリシーに対して、中間難易度の目標(GOID)に位置する目標を生成する Goal GAN を導入する。
- エージェントが観察した成功によって目標をラベル付けし、正例と負例で GAN を訓練する。
- GOID サンプルでポリシーを反復的に訓練し、ポリシーの性能に基づいて GAN を更新する。
- ポリシーの更新には基礎となるRL最適化子としてTRPOとGAEを使用する。)

実験結果
リサーチクエスチョン
- RQ1Goal GAN を介した自動カリキュラム生成は、基準法と比較して複数の目標を達成する学習のサンプル効率を改善できるか?
- RQ2Goal GAN は適応的に中間難易度の目標をサンプリングし、多峰性のある目標分布を追跡するか?
- RQ3高次元でより複雑な目標空間にスケールさせつつ、性能を維持できるか?
- RQ4手作業で設計された報酬なしの疎な報酬設定に対して手法は頑健か?
- RQ5時間とともに到達可能な目標の集合を拡大しつつ、忘却を防ぐことができるか?
主な発見
- Goal GAN は中間難易度の目標に焦点を当てることで学習を加速し、均等サンプリングやいくつかのベースラインを上回る。
- 生成器は動的に GOID にシフトし、ポリシーの改善に伴い、あまりにも簡単でも難し過ぎもしない目標を生成する。
- 本手法は多峰性のある目標分布を追跡し、迷路のような環境を含む多様な目標カバレッジを維持する。
- 高次元の目標空間では、実現可能な部分集合内で目標を生成することで有効性を保ち、情報量の低いサンプルを避ける。
- 拒絶サンプリング・オラクルの変種は GOID ベースのサンプリングがほぼ最適であることを確認し、完全な GAN ベースの手法ははるかに高いサンプル効率を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。