QUICK REVIEW

[論文レビュー] Transfer Learning in Deep Reinforcement Learning: A Survey

Zhuangdi Zhu, Kaixiang Lin|arXiv (Cornell University)|Sep 16, 2020

Reinforcement Learning in Robotics参考文献 178被引用数 150

ひとこと要約

転移学習が深層強化学習にどのように適用されるかの包括的な調査で、知識移転のタイプ、分類、評価指標、および今後の方向性を詳述する。

ABSTRACT

Reinforcement learning is a learning paradigm for solving sequential decision-making problems. Recent years have witnessed remarkable progress in reinforcement learning upon the fast development of deep neural networks. Along with the promising prospects of reinforcement learning in numerous domains such as robotics and game-playing, transfer learning has arisen to tackle various challenges faced by reinforcement learning, by transferring knowledge from external expertise to facilitate the efficiency and effectiveness of the learning process. In this survey, we systematically investigate the recent progress of transfer learning approaches in the context of deep reinforcement learning. Specifically, we provide a framework for categorizing the state-of-the-art transfer learning approaches, under which we analyze their goals, methodologies, compatible reinforcement learning backbones, and practical applications. We also draw connections between transfer learning and other relevant topics from the reinforcement learning perspective and explore their potential challenges that await future research progress.

研究の動機と目的

強化学習および DRL の文脈における転移学習を定義する。
転移される知識の種類とそれが DRL の各バックボーンでどのように使用されるかに基づき、TL アプローチを体系的に分類する。
TL 手法の目的、方法論、および DRL における適用を分析する。
DRL における TL の評価指標と今後の研究方向性について論じる。

提案手法

転移される知識の形式と転移過程に基づいて DRL における TL アプローチを分類する枠組みを提案する。
転移される知識の形式別に整理された TL 手法をレビューする（例: 報酬設計、デモンストレーションからの学習、教師ポリシー、表現など）。
RL のバックボーンとの適合性、およびソースドメインとターゲットドメインの差異を分析する。
DRL における TL の評価指標を要約し、知識の質と量に関する新たな指標を議論する。

実験結果

リサーチクエスチョン

RQ1DRL で学習を促進するためにどのような形式の知識を転移できるか。
RQ2さまざまな TL アプローチが異なる DRL のバックボーンやタスクの差異とどのように適合するか。
RQ3DRL における TL の有効性と転移された知識の質を最もよく評価する指標は何か。
RQ4DRL における TL の今後の方向性と未解決の課題は何か。

主な発見

報酬設計、デモンストレーション学習、ポリシー転送は、バックボーンへの適合性が異なるDRLにおけるコアなTLアプローチである。
PBRS、PBA、DPB、DPBAは、TL in DRLのためのポテンシャルベース報酬設計手法のスペクトルを提供する。
デモンストレーションからの学習と教師ポリシーは、DRLタスク間でポリシー非依存型およびポリシー蒸留型の知識転移を可能にする。
TL の評価は習熟度（最終パフォーマンス）と一般化（速度と堅牢性）の双方を考慮し、必要な知識量や質などの知識中心指標を提案する。
本調査は、多様な知識形態にわたる推論や、TL in DRL における効率的で原理的な知識の活用といった今後の方向性を特定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。