QUICK REVIEW

[論文レビュー] A Self-Tuning Actor-Critic Algorithm

Tom Zahavy, Zhongwen Xu|arXiv (Cornell University)|Feb 28, 2020

Reinforcement Learning in Robotics参考文献 29被引用数 32

ひとこと要約

STACとSTACXはメタグレンドを用いて actor-critic 損失の differentiable ハイパーパラメータを自己調整し、Leaky V-trace バリアントと補助タスクを追加する。これにより ALE と DM Control の両方で大きな計算オーバーヘッドをかけずに一貫した性能向上を達成する。

ABSTRACT

Reinforcement learning algorithms are highly sensitive to the choice of hyperparameters, typically requiring significant manual effort to identify hyperparameters that perform well on a new domain. In this paper, we take a step towards addressing this issue by using metagradients to automatically adapt hyperparameters online by meta-gradient descent (Xu et al., 2018). We apply our algorithm, Self-Tuning Actor-Critic (STAC), to self-tune all the differentiable hyperparameters of an actor-critic loss function, to discover auxiliary tasks, and to improve off-policy learning using a novel leaky V-trace operator. STAC is simple to use, sample efficient and does not require a significant increase in compute. Ablative studies show that the overall performance of STAC improved as we adapt more hyperparameters. When applied to the Arcade Learning Environment (Bellemare et al. 2012), STAC improved the median human normalized score in 200M steps from 243% to 364%. When applied to the DM Control suite (Tassa et al., 2018), STAC improved the mean score in 30M steps from 217 to 389 when learning with features, from 108 to 202 when learning from pixels, and from 195 to 295 in the Real-World Reinforcement Learning Challenge (Dulac-Arnold et al., 2020).

研究の動機と目的

深層RLにおける手動ハイパーパラメータ調整の削減を、メタグラデントによるオンライン自動調整を可能にすることで動機付ける。
STAC を開発し IMPALA 損失のすべての differentiable ハイパーパラメータを自動最適化し Leaky V-trace を導入する。
STACX（STAC に補助タスクを追加）を拡張し、自己調整されたメタパラメータで有益な補助損失を発見できるようにする。
ABLAおよび堅牢性分析を用いた多様な領域（ALE と DM Control）での経験的性能向上を示す。

提案手法

内部損失を metaparameters atter = {gamma, lambda, g_v, g_p, g_e} によりパラメータ化し、外部損失には方針のドリフトを防ぐ KL 正則化を含める。
外部損失上で differentiable なメタ最適化子 (Adam) を用いてオンラインで差異可能なハイパーパラメータを自己調整するためのメタグレンド更新を適用する。
Leaky V-trace を導入し、重要度サンプリングと切り捨てられた IS の間の differentiable な補間をリークパラメータ alpha で制御する。
STACX では、共有表現を改善する補助タスクを学習するための独自のメタパラメータを持つ補助ヘッドを追加し、外部損失は主要ヘッドに焦点を当てる。
複数のヘッドを備えた共有表現ボトムアップ (ResNet 相当) を用い、各補助ヘッドは Leaky V-trace を介してオフポリシー補正のための differentiable 損失を最適化する。

実験結果

リサーチクエスチョン

RQ1オンライン・生涯 RL 設定で大規模な differentiable ハイパーパラメータ群を metagradients で自己調整できるか。
RQ2ハイパーパラメータの自己調整は、さまざまな領域（ALE と DM Control）でサンプル効率と最終性能を改善するか。
RQ3Leaky V-trace はオフポリシーの actor-critic 学習の安定性と性能にどのような影響を与えるか。
RQ4補助タスク（STACX）とそれらの自己調整されたメタパラメータは表現学習と性能をさらに改善するか。

主な発見

STACX は Atari 200M フレームでの中央値の人間正規化スコアが 364% に達し、基準の 243% を上回る。
DM Control で、STACX/ STAC は特徴量、ピクセル、RWRL 設定で平均スコアを改善（例：特徴量で 217 から 389、ピクセルで 108 から 202、RWRL で 195 から 295）。
アブレーション研究は、自己調整されるメタパラメータが多いほど性能が改善されることを示し、STACX は一貫して IMPALA ベースラインを上回る。
STACX は外部ハイパーパラメータの摂動に対してロバストで、学習中に解釈可能なメタパラメータの軌跡を示す。
STACX は自己調整ハイパーパラメータが 21 個に拡張され、以前の研究よりも多いが計算量の大幅な増加は見られない。
STACX の補助ヘッドは主にピクセルベースの DM Control で追加の利得を提供し、特徴ベースの設定ですべてに普遍的ではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。