[論文レビュー] Distral: Robust Multitask Reinforcement Learning
Distralは、共有行動を中央のポリシーに蒸留し、それに向けてタスクポリシーを正則化するマルチタスクRLフレームワークを導入し、複雑な環境におけるタスク間の安定性と転移を改善する。
Most deep reinforcement learning algorithms are data inefficient in complex and rich environments, limiting their applicability to many scenarios. One direction for improving data efficiency is multitask learning with shared neural network parameters, where efficiency may be improved through transfer across related tasks. In practice, however, this is not usually observed, because gradients from different tasks can interfere negatively, making learning unstable and sometimes even less data efficient. Another issue is the different reward schemes between tasks, which can easily lead to one task dominating the learning of a shared model. We propose a new approach for joint training of multiple tasks, which we refer to as Distral (Distill & transfer learning). Instead of sharing parameters between the different workers, we propose to share a "distilled" policy that captures common behaviour across tasks. Each worker is trained to solve its own task while constrained to stay close to the shared policy, while the shared policy is trained by distillation to be the centroid of all task policies. Both aspects of the learning process are derived by optimizing a joint objective function. We show that our approach supports efficient transfer on complex 3D environments, outperforming several related methods. Moreover, the proposed learning process is more robust and more stable---attributes that are critical in deep reinforcement learning.
研究の動機と目的
- タスク間の負の勾配干渉を抑えつつ、マルチタスク学習を通じて深層強化学習のデータ効率を動機づける。
- 共通の挙動を共有ポリシーに取り込む蒸留ベースの機構を提案する。
- 各タスクポリシーを蒸留ポリシーに向けて正則化し、タスクポリシーからの蒸留を通じて蒸留ポリシーを訓練する。
提案手法
- 共通タスク挙動をとらえる蒸留ポリシーπ0を定義する。
- 各タスクポリシーπiをπ0に向けて割引付きKLダイバージェンスを用いて正則化し、探索を促進するエントロピー正則化を加える。
- ソフトQ学習の更新を、緩和されたベルマンバックアップとタスクポリシーのボルツマン形で導出する。
- 蒸留ポリシーとタスクポリシーを2列アーキテクチャでパラメータ化し、迅速な転送と直接勾配伝搬を可能にする。
- 蒸留ポリシーがタスクポリシーの重心として学習する方法と、これが堅牢なマルチタスク学習をいかに促進するかを説明する。
- KL正則化とエントロピーのバランスを取るいくつかのアルゴリズム変種を評価し、交互最適化と同時最適化を含む。
実験結果
リサーチクエスチョン
- RQ1標準的なマルチタスクA3C基準と比較して、蒸留された共有ポリシーはデータ効率と安定性を改善できるか。
- RQ2KL正則化とエントロピー正則化の組み合わせが、さまざまなタスクにおける転移、探索、ロバスト性にどう影響するか。
- RQ3(一列 vs 二列のパラメータ化) および最適化スキームのどの組み合わせが転送と安定性を最も促進するか。
主な発見
- Distralベースの手法は、複雑な3D環境でマルチタスクA3C基準より学習が速く、最終性能も向上する。
- 蒸留を用いた二列バリアントは、単一列バリアントより転送が速く、より堅牢な性能を提供する。
- エントロピー正則化は探索を維持し、早期収束を防ぎ、タスク間のロバスト性を向上させる。
- 蒸留ベースの共有は、パラメータ共有のみと比べて学習を安定化させるセントロイド様のポリシーを生む。
- Distral法はより安定性が高く、ハイパーパラメータ設定に対して基準のマルチタスクRLアプローチよりロバストである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。