QUICK REVIEW

[論文レビュー] Fully Parameterized Quantile Function for Distributional Reinforcement\n Learning

Derek Yang, Li Zhao|arXiv (Cornell University)|Nov 5, 2019

Reinforcement Learning in Robotics参考文献 24被引用数 40

ひとこと要約

この論文は、分布型強化学習のための Fully Parameterized Quantile Function (FQF) を提案し、分位点の分数と対応する分位値の両方を同時に学習して報酬分布をより正確に近似し、最先端のAtari結果を示す。

ABSTRACT

Distributional Reinforcement Learning (RL) differs from traditional RL in\nthat, rather than the expectation of total returns, it estimates distributions\nand has achieved state-of-the-art performance on Atari Games. The key challenge\nin practical distributional RL algorithms lies in how to parameterize estimated\ndistributions so as to better approximate the true continuous distribution.\nExisting distributional RL algorithms parameterize either the probability side\nor the return value side of the distribution function, leaving the other side\nuniformly fixed as in C51, QR-DQN or randomly sampled as in IQN. In this paper,\nwe propose fully parameterized quantile function that parameterizes both the\nquantile fraction axis (i.e., the x-axis) and the value axis (i.e., y-axis) for\ndistributional RL. Our algorithm contains a fraction proposal network that\ngenerates a discrete set of quantile fractions and a quantile value network\nthat gives corresponding quantile values. The two networks are jointly trained\nto find the best approximation of the true distribution. Experiments on 55\nAtari Games show that our algorithm significantly outperforms existing\ndistributional RL algorithms and creates a new record for the Atari Learning\nEnvironment for non-distributed agents.\n

研究の動機と目的

確率や値だけでなく、完全な分位関数をどのようにパラメータ化するかという点に取り組み、分布型RLを改善する動機づけ。
より良い分布近似のために、分位分数と対応する値の両方を学習する訓練フレームワークを提案する。
従来の分布型RL法と比較して、広範なAtariベンチマークで経験的な利得を示す。
頑健性を評価し、訓練速度と分布精度のトレードオフを探索する。

提案手法

Fully parameterized quantile function (FQF) を、分位分数を生成する fraction proposal network P と、分位分数を分位値へ写像する quantile value network F^{-1}_{Z,w2} の二つのネットワークを用いて導入する。
分布を、学習された分数と値を用いた Diracデルタの重み付き混合として定義する（Z_{ heta, au}(x,a) = sum_{i=0}^{N-1} (tau_{i+1}-tau_i) delta_{theta_i(x,a)}）。
実分布と射影された分位関数との1-ワッサースタイン距離を最小化する（式(2)）ため、Wasserstein損失の勾配を用いて fraction proposal network を訓練する（式(5)）。
Huberベースの損失を用いた分位回帰で quantile value network を訓練し（式(7)）、提案された分数を共有して Bellman targets を計算する。
埋め込みベースの（IQNに触発された）分位値ネットワークを実装し、cumulated softmax を用いて整列した有効な分位数を保証する。
N=32 の分位分数と200Mフレームで、55ゲームの訓練と評価を実施する。

実験結果

リサーチクエスチョン

RQ1分位分数と対応する値の両方を学習することは、分数を固定したりサンプルする従来法よりも真のリターン分布に近い近似を生み出すだろうか？
RQ2自己調整型で状態依存の分位分数は、分布近似と Atari のポリシーの性能向上に寄与するだろうか？
RQ3完全にパラメータ化された分位関数を用いたとき、分布精度と訓練速度のトレードオフはどうなるか？

主な発見

Algorithm	Mean	Median	>Human	>DQN
DQN	221%	79%	24	0
PRIOR.DUEL.	580%	124%	39	48
C51	701%	178%	40	50
RAINBOW	1213%	227%	42	52
QR-DQN	902%	193%	41	54
IQN	1112%	218%	39	54
FQF	1426%	272%	44	54

FQF は 55 の Atari ゲームで既存の分布型 RL アルゴリズムを大幅に上回り、非分散エージェントの新記録を樹立した。
平均スコア: FQF 1426%、中央値 272%、人間を上回る割合 44%、DQN を上回る割合 54%；IQN は平均 1112%、中央値 218% を達成。
FQF は同等のタスクで一般に IQN より訓練が速いが、追加の fraction proposal network による約 20% の遅延が生じる。
学習された状態依存の分位分数はゲームの状況に適応しており（例：敵出現時のスパイク）、fraction proposal network が意味ある、行動に敏感な調整を提供していることを示している。
FQF は評価セット全体の平均性能で QR-DQN、C51、Rainbow、IQN を上回り、ALE における分布型RLの新たな最高水準を確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。