QUICK REVIEW

[論文レビュー] Online Meta-Critic Learning for Off-Policy Actor-Critic Methods

Wei Zhou, Yiying Li|arXiv (Cornell University)|Mar 11, 2020

Adversarial Robustness in Machine Learning被引用数 9

ひとこと要約

本稿では、オフポリシーのアクタ・クリティック強化学習を高速化・向上させるために、学習中に動的に改善されたアクターロスを学習する手法、オンラインメタクリティックラーニングを提案する。リアルタイムで学習の進行状況に応じて、クリティックネットワークをメタ最適化することで、サンプル効率と学習速度を向上させ、タスクの家族を事前に必要とせずにDDPG、TD3、SACの各手法において、連続的制御環境で性能を向上させる。

ABSTRACT

Off-Policy Actor-Critic (Off-PAC) methods have proven successful in a variety of continuous control tasks. Normally, the critic's action-value function is updated using temporal-difference, and the critic in turn provides a loss for the actor that trains it to take actions with higher expected return. In this paper, we introduce a novel and flexible meta-critic that observes the learning process and meta-learns an additional loss for the actor that accelerates and improves actor-critic learning. Compared to the vanilla critic, the meta-critic network is explicitly trained to accelerate the learning process; and compared to existing meta-learning algorithms, meta-critic is rapidly learned online for a single task, rather than slowly over a family of tasks. Crucially, our meta-critic framework is designed for off-policy based learners, which currently provide state-of-the-art reinforcement learning sample efficiency. We demonstrate that online meta-critic learning leads to improvements in avariety of continuous control environments when combined with contemporary Off-PAC methods DDPG, TD3 and the state-of-the-art SAC.

研究の動機と目的

オフポリシーのアクタ・クリティック手法の連続的制御タスクにおけるサンプル効率と学習速度を向上させること。
学習の進行状況に応じて適応しない固定のクリティック損失の制限を解消すること。
複数のタスクのメタトレーニングを必要とせず、オンラインで1つのタスクに迅速に適応可能なメタラーナーを開発すること。
DDPG、TD3、SACなどの最先端のオフポリシー手法とシームレスに統合できること。

提案手法

メタクリティックは、現在の学習状態を観測し、アクターのための動的損失信号をメタ学習するニューラルネットワークである。
主なRLトレーニングプロセス中にオンラインで訓練され、アクターのパフォーマンスからの勾配を用いて自身のパラメータを更新する。
メタクリティックの損失は、目標報酬に到達するまでの時間を最小化するように最適化され、学習速度の目的と直接一致する。
この手法はオフポリシーフレームワーク内で動作し、オフポリシーのリプレイバッファを活用することで、サンプル効率を維持する。
メインのアクタ・クリティックと一体にエンドツーエンドで訓練され、学習進行状況にリアルタイムで適応可能である。
複数のタスクにおけるメタトレーニングを必要とせず、個々のタスクに迅速に適応可能である。

実験結果

リサーチクエスチョン

RQ1メタ学習されたクリティック損失は、オフポリシーのアクタ・クリティック手法における学習速度と最終パフォーマンスを向上させることができるか？
RQ2固定のクリティック損失と比較して、オンラインメタクリティックラーニングは収束速度とサンプル効率においてどのように異なるか？
RQ3複数のタスクの事前分布や複数タスクにおけるメタトレーニングを必要とせず、1つのタスク上で迅速にトレーニング可能なか？
RQ4メタクリティックはDDPG、TD3、SACのような多様なオフポリシー手法において性能を向上させることができるか？

主な発見

オンラインメタクリティックラーニングは、標準的なオフポリシーのアクタ・クリティック（Off-PAC）手法と比較して、連続的制御環境における学習を顕著に高速化する。
DDPG、TD3、SACと組み合わせた際、HalfCheetah、Ant、Humanoidなどのベンチマークタスクで最終パフォーマンスが向上する。
サンプル効率を損なわず、収束が速くなる。ベースとなるアルゴリズムのオフポリシーの利点を維持する。
複数のオフポリシー手法に効果的であり、広範な互換性と一般化性能を示す。
オンラインでトレーニングされ、個々のタスクに迅速に適応可能であり、タスクの家族に対するメタトレーニングを回避できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。