QUICK REVIEW

[論文レビュー] Simple random search provides a competitive approach to reinforcement learning

Horia Mania, Aurelia Guy|arXiv (Cornell University)|Mar 19, 2018

Reinforcement Learning in Robotics参考文献 35被引用数 169

ひとこと要約

著者らは、線形ポリシーのパラメータ空間での単純な augmented random search が MuJoCo 運動タスクにおけるサンプル効率で最先端と同等またはそれを上回り、Evolution Strategies よりははるかに計算効率が高いことを示している。彼らはまた、RL ベンチマークにおけるシードとハイパーパラメータ間の高い分散を強調している。

ABSTRACT

A common belief in model-free reinforcement learning is that methods based on random search in the parameter space of policies exhibit significantly worse sample complexity than those that explore the space of actions. We dispel such beliefs by introducing a random search method for training static, linear policies for continuous control problems, matching state-of-the-art sample efficiency on the benchmark MuJoCo locomotion tasks. Our method also finds a nearly optimal controller for a challenging instance of the Linear Quadratic Regulator, a classical problem in control theory, when the dynamics are not known. Computationally, our random search algorithm is at least 15 times more efficient than the fastest competing model-free methods on these benchmarks. We take advantage of this computational efficiency to evaluate the performance of our method over hundreds of random seeds and many different hyperparameter configurations for each benchmark task. Our simulations highlight a high variability in performance in these benchmark tasks, suggesting that commonly used estimations of sample efficiency do not adequately evaluate the performance of RL algorithms.

研究の動機と目的

探索がモデルフリーRLにおいてアクション空間探索と同等に効果的になりうるかを解明する。
計算効率が高い最小限の、微分自由な最適化手法を用いて線形ポリシーを訓練する。
ARS を標準的な MuJoCo 運動ベンチマークと難しい LQR のインスタンスで評価し、シード間の性能と頑健性を確認する。
RL ベンチマークの標準化実践を通知するため、シードとハイパーパラメータのばらつきによる性能変動を強調する。

提案手法

RL における微分自由最適化のベースラインとして基本的なランダム探索 (BRS) を提示する。
報酬の標準偏差でのスケーリング、オンライン状態正規化、性能の低い方向の破棄を用いて BRS を拡張する（ARS）。
V1, V1-t, V2, V2-t の4つの ARS 変種を導入する。V2 には状態 whitening を含み、V1/V2-t はトップ方向選択を用いる。
共有ノイズ表と独立したロールアウトを用いた並列実装で、ランダム方向に沿った勾配を推定する。
RL のオラクルモデルを定式化し、環境へのロールアウト回数（クエリ）の数としてのサンプル複雑性を論じる。
MuJoCo タスクで ARS を NG, TRPO, ES, PPO, A2C, CEM, SAC と比較し、サンプル効率と wall-clock time を分析する。

Figure 1 : Showing the standard deviation $\sigma_{R}$ of the rewards collected at each iteration, while training Humanoid-v1.

実験結果

リサーチクエスチョン

RQ1ポリシーパラメータ空間での単純なランダム探索は連続制御タスクで競争力のあるサンプル効率を達成できるか。
RQ2報酬スケーリング、状態正規化、トップ方向の選択といった拡張は ARS の性能を改善するか。
RQ3MuJoCo ベンチマークにおけるサンプル効率と計算コストの観点で ARS は主流の RL 手法とどう比較されるか。
RQ4評価シードのばらつきとハイパーパラメータ感度が RL ベンチマーク実践に与える影響は何か。
RQ5ARS で訓練された線形ポリシーは難しい制御タスクや未知のダイナミクス問題である難しい LQR インスタンスに対して良好に機能するか。

主な発見

タスク	閾値	ARS V1	ARS V1-t	ARS V2	ARS V2-t	NG-lin	NG-rbf	TRPO-nn
Swimmer-v1	325	100	100	427	427	1450	1550	N/A
Hopper-v1	3120	89493	51840	3013	1973	13920	8640	10000
HalfCheetah-v1	3430	10240	8106	2720	1707	11250	6000	4250
Walker2d-v1	4390	392000	166133	89600	24000	36840	25680	14250
Ant-v1	3580	101066	58133	60533	20800	39240	30000	73500
Humanoid-v1	6000	N/A	N/A	142600	142600	≈130000	≈130000	UNK

ARS は線形ポリシー（ニューラルネットワークなし）で MuJoCo 運動タスクの最先端サンプル効率と同等またはそれを超える。
ARS は Humanoid-v1 で同等の性能閾値に到達する際、ES より少なくとも 15x 以上計算効率が高い。
ARS はシードとハイパーパラメータ間で高い分散を示し、多くの試行を用いた広範なベンチマークの必要性を浮き彫りにする。
ARS V2（状態正規化/ whitening を用いる）は Humanoid-v1 を解決し、V1 に比べてほとんどの MuJoCo タスクで性能を向上させる。
ARS は未知ダイナミクス LQR 問題の難しいインスタンスをほぼ最適な性能へと解くことができる。
多くのベースラインと比較して、ARS は一般に良好なサンプル効率と最大報酬の競争力を 1e6 タイムステップ後に達成する。

Simple random search provides a competitive approach to reinforcement learning

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。