[論文レビュー] Universal Successor Representations for Transfer Reinforcement Learning
本稿では、同じダイナミクスを持つが目的が異なる強化学習タスクにおける効率的な転移学習を可能にするために、汎用後続表現(USR)とトレーニング可能なUSR近似器(USRA)を提案する。状態遷移と目的の共有表現を学習することで、適切な初期化による迅速な新しい目的への適応が可能となり、学習速度がランダム初期化を著しく上回る。
The objective of transfer reinforcement learning is to generalize from a set of previous tasks to unseen new tasks. In this work, we focus on the transfer scenario where the dynamics among tasks are the same, but their goals differ. Although general value function (Sutton et al., 2011) has been shown to be useful for knowledge transfer, learning a universal value function can be challenging in practice. To attack this, we propose (1) to use universal successor representations (USR) to represent the transferable knowledge and (2) a USR approximator (USRA) that can be trained by interacting with the environment. Our experiments show that USR can be effectively applied to new tasks, and the agent initialized by the trained USRA can achieve the goal considerably faster than random initialization.
研究の動機と目的
- 同じダイナミクスを持つが目的が異なる強化学習タスク間での知識転送の課題に対処すること。
- 実際の応用において効果的に訓練が困難であるため、一般化価値関数近似器の改善を目指すこと。
- マルチタスク転移に適した、状態と目的の両方に一般化可能な汎用後続表現(USR)の開発。
- 環境とのオンポリシー相互作用を用いて学習可能なトレーニング可能なUSR近似器(USRA)の設計。
- USRAが効果的な初期化を提供することで、未観測の目的においても学習が高速化されることの実証。
提案手法
- 報酬関数を $ r_g(s,a,s') = \mathbf{\phi}(s,a,s')^\top \mathbf{w}_g $ として因数分解し、$ \mathbf{\phi} $ を共有状態特徴、$ \mathbf{w}_g $ を目的特異的報酬特徴とする。
- 汎用後続表現(USR)を $ \mathbf{\psi}_g^\pi(s) = \mathbb{E}^\pi[\mathbf{\phi}(s,A,S') + \gamma_g(s)\mathbf{\psi}_g^\pi(S')] $ として定義し、状態と目的の両方に一般化する。
- USRAを、$ L_w $、$ L_\psi $、$ J_\pi $、$ L_{\text{recon}} $ の4つの損失成分を用いた勾配更新により、オフポリシーのアクタ・クリティックフレームワークで学習。
- 深層ニューラルネットワークアーキテクチャを採用し、$ \theta_\pi $、$ \theta_\psi $、$ \theta_w $、$ \theta_\phi $ を統合的に最適化。特徴抽出のための初期層を共有。
- エンドツーエンド学習の前段階として、生観測値を用いたオートエンコーダー事前学習により状態特徴 $ \mathbf{\phi}(s) $ を学習。
- 訓練済みUSRAを、ポリシーと価値関数の初期化に用い、未観測の新しい目的における学習を高速化。
実験結果
リサーチクエスチョン
- RQ1共有ダイナミクスを持つタスクにおいて、汎用後続表現(USR)は異なる目的に効果的に一般化できるか?
- RQ2USR近似器(USRA)は、環境とのオンポリシー相互作用によって実際に学習可能か?
- RQ3事前に訓練されたUSRAを初期化に用いることで、ランダム初期化と比較して未観測の目的における収束が速くなるか?
- RQ4USRを用いた強化学習の一般化と高速な転移性能を達成するには、何個のソース目的が必要か?
- RQ5マルチタスク強化学習の文脈において、USRAベースの初期化は標準的な価値関数転移手法を上回る性能を示せるか?
主な発見
- USRAモデルは目的にわたる一般化が効果的に実現されており、未観測のターゲット目的における性能は、その目的に直接学習させたモデルとほぼ同等に近づいた。
- 64個の目的のうち20個を学習対象とした場合、40個を学習した場合と同等の一般化性能を達成した。これは、転移にかかるサンプルの必要数が低いことを示している。
- 訓練済みUSRAを初期化に用いたエージェントは、ランダム初期化よりも未観測のターゲット目的における学習が速く、特にソース目的数が十分に多い場合(例:k=20)に顕著な向上が見られた。
- 予測された最適USR値と実際の値との間で平均二乗誤差(MSE)が低く抑えられ、未観測目的におけるポリシー一般化のための交差エントロピー損失も低かった。
- ソース目的数が十分に多く、タスクのダイナミクスを捉えられるようになると、USRA初期化による性能向上が顕著に現れ、ある点を過ぎると利得が減少した。
- アクタ・クリティック学習手順により、$ \theta_\psi $、$ \theta_\pi $、$ \theta_w $、$ \theta_\phi $ のすべての成分が統合的なフレームワーク内で効果的に最適化された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。