[論文レビュー] Transfer Learning for Related Reinforcement Learning Tasks via Image-to-Image Translation
本論文は、視覚転送を制御ポリシーから分離し、unaligned GAN を介してゼロショット転送を効果的に実現できることを示し、関連する強化学習タスクのサンプル効率を向上させる。Breakout のバリアントと Road Fighter で実証され、 imperfect demonstrations からの模倣学習が結果を向上させる。
Despite the remarkable success of Deep RL in learning control policies from raw pixels, the resulting models do not generalize. We demonstrate that a trained agent fails completely when facing small visual changes, and that fine-tuning---the common transfer learning paradigm---fails to adapt to these changes, to the extent that it is faster to re-train the model from scratch. We show that by separating the visual transfer task from the control policy we achieve substantially better sample efficiency and transfer behavior, allowing an agent trained on the source task to transfer well to the target tasks. The visual mapping from the target to the source domain is performed using unaligned GANs, resulting in a control policy that can be further improved using imitation learning from imperfect demonstrations. We demonstrate the approach on synthetic visual variants of the Breakout game, as well as on transfer between subsequent levels of Road Fighter, a Nintendo car-driving game. A visualization of our approach can be seen in https://youtu.be/4mnkzYyXMn4 and https://youtu.be/KCGTrQi6Ogo .
研究の動機と目的
- 標準的な深層強化学習は視覚的変化が小さい場合の一般化に失敗し、ファインチューニングが転移をうまく行えないことを示す。
- 視覚転送をポリシー学習から分離して、視覚的に異なるがダイナミクス的には関連するタスク間での効果的な転移を可能にする。
- unaligned GAN がターゲット領域の視覚をソース領域の視覚へ写像し、学習したポリシーを再利用できることを示す。
- GAN の写像が不完全な場合、転移ポリシーを不完全なデモンストレーションとして扱い、模倣学習を適用してサンプル効率を改善する。
提案手法
- 基礎タスク(例:Breakout)でソース RL エージェントを訓練し、視覚的に変更されたターゲットタスクで評価する。
- さまざまな凍結/新規レイヤ設定でファインチューニングによる標準的な転送を試みるが、転移に失敗する。
- ペアデータなしで、unaligned GAN(UNIT/CycleGAN フレームワーク)を用いてターゲットからソースドメインへの視覚マッピング G を学習する。
- ターゲット環境でのソースポリシーパラメータ θ を用いて、 transferred policy π(a|G(t); θ) を相互作用を通じて評価する。
- GAN の写像が不完全な場合、転移ポリシーを不完全なデモンストレーションとして扱い、模倣学習を適用してサンプル効率を改善する。
- 任意で、論文のアルゴリズム的詳細に従って模倣学習の更新をオンポリシー RL(A2C)更新と組み合わせる。
実験結果
リサーチクエスチョン
- RQ1ソースタスクで訓練した深層 RL ポリシーは、ダイナミクスの変化が最小限の視覚的変更があるターゲットタスクへ一般化できるか。
- RQ2視覚的に変化する RL タスクに対してファインチューニングは効果的な転移手法か、それとも学習を妨げるのか。
- RQ3視覚転送を制御ダイナミクスから分離することで、異なるレベル/バリアント間で知識を転移できるか。
- RQ4unaligned GAN によるゼロショット視覚転送で実用的なポリシーを得られ、GAN が不完全な場合には模倣学習がそのようなポリシーを改善できるか。
主な発見
- Breakout のバリアント間のファインチューニングはほとんど転移に失敗し、時にはスクラッチからの学習と同様に収束が遅くなることがある。
- 視覚転送なしで Road Fighter のレベル間を転送するとスコアがゼロとなり、ポリシーの完全な失敗を示す。
- unaligned GAN によるゼロショットの視覚転送(G がターゲット視覚をソース視覚へ写す)は、ターゲットの相互作用をはるかに少なくして高いスコアを実現できる、サンプル効率の高い転移を可能にする。
- GAN の選択肢の中では UNIT ベースの翻訳が Breakout でしばしば CycleGAN より優れており、Road Fighter では結果はより混在している。GAN の品質はポリシー性能に直接影響する。
- imperfect な GAN ベースのデモンストレーションからの模倣学習は、ターゲットタスクの性能とサンプル効率をさらに向上させ、スクラッチからの学習よりもはるか少ない環境相互作用で高いスコアを達成できる。
- このアプローチは、ダウンストリーム RL の性能に基づく unaligned GAN の評価指標として実用的なタスク指向の指標も提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。