QUICK REVIEW

[論文レビュー] Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting

Jorge A. Mendez, Boyu Wang|arXiv (Cornell University)|Jan 1, 2020

Domain Adaptation and Few-Shot Learning被引用数 3

ひとこと要約

本稿では、要因分解された方策を直接方策勾配最適化を用いて訓練することで、さまざまな制御環境において継続的な知識の転送を可能にする、生涯にわたる方策勾配手法を提案する。共有表現と継続的学習を活用することで、学習が加速され、災難的忘却が解消される。

ABSTRACT

Policy gradient methods have shown success in learning control policies for high-dimensional dynamical systems. Their biggest downside is the amount of exploration they require before yielding high-performing policies. In a lifelong learning setting, in which an agent is faced with multiple consecutive tasks over its lifetime, reusing information from previously seen tasks can substantially accelerate the learning of new tasks. We provide a novel method for lifelong policy gradient learning that trains lifelong function approximators directly via policy gradients, allowing the agent to benefit from accumulated knowledge throughout the entire training process. We show empirically that our algorithm learns faster and converges to better policies than single-task and lifelong learning baselines, and completely avoids catastrophic forgetting on a variety of challenging domains.

研究の動機と目的

順次タスクにおける方策勾配強化学習の収束が遅く、災難的忘却が生じる問題に対処すること。
複数のタスクにわたって方策勾配を通じて関数近似器を直接訓練することで、生涯にわたる知識の転送を可能にすること。
新しいタスクを学習する際も、以前のタスクでの高いパフォーマンスを維持し、パフォーマンスの崩壊を回避する方法を設計すること。
単一タスクおよび生涯学習のベースラインと比較して、収束速度の向上と最終的なパフォーマンスの向上を実証的に検証すること。

提案手法

本手法は、以前に学習されたタスクからの知識を組み込んだ方策勾配更新を用いて、要因分解された方策を訓練する。
共有部とタスク固有部を備えた、関数近似を用いた方策ネットワークを段階的にタスクごとに更新する生涯学習フレームワークを採用する。
本手法は、方策を関数近似で表現し、各新しいタスクからの方策勾配信号を継続的に更新することで、学習を継続的に行う。
主なイノベーションは、生涯にわたる関数近似器を方策勾配を通じて直接訓練することであり、継続的適応を可能にするエンド・トゥ・エンド学習を実現する。
パrameter正則化と経験リプレイ機構を用いることで、過去のタスクからの知識を保持することで、災難的忘却を回避する。

実験結果

リサーチクエスチョン

RQ1要因分解された方策を用いた生涯にわたる方策勾配学習は、新しいタスクでの学習を加速させるとともに、以前のタスクでのパフォーマンスを維持できるか？
RQ2本手法は、単一タスクおよび既存の生涯学習ベースラインと比較して、収束速度と最終的な方策品質の点でどのように異なるか？
RQ3高次元制御タスクにおいて、本手法はどれほど災難的忘却を防止できるか？
RQ4要因分解された方策パラメータ化は、生涯学習の効率性および一般化性能にどのような影響を及えるか？

主な発見

提案手法は、単一タスクおよび生涯学習ベースラインと比較して、新しいタスクでの収束が著しく速い。
複数の挑戦的な制御環境において、最終的な方策パフォーマンスが一貫してベースラインを上回る。
本手法は災難的忘却を完全に排除し、以前に学習したタスクで高いパフォーマンスを維持する。
実証的結果から、直接方策勾配更新による継続的知識転送が、より効率的な生涯学習を実現することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。