QUICK REVIEW

[論文レビュー] Variance Reduction for Reinforcement Learning in Input-Driven Environments

Hongzi Mao, Shaileshh Bojja Venkatakrishnan|arXiv (Cornell University)|Jul 6, 2018

Reinforcement Learning in Robotics被引用数 51

ひとこと要約

本論文は、入力駆動型 MDP における policy gradient 法のための入力依存ベースラインを提案し、偏りのない分散削減を証明するとともに、さまざまな入力シーケンスにわたってベースラインを学習するメタ学習アプローチを提案する。キューイング、ネットワーキング、MuJoCo タスクにおける実験は、訓練の安定性と方策の性能の改善を示している。

ABSTRACT

We consider reinforcement learning in input-driven environments, where an exogenous, stochastic input process affects the dynamics of the system. Input processes arise in many applications, including queuing systems, robotics control with disturbances, and object tracking. Since the state dynamics and rewards depend on the input process, the state alone provides limited information for the expected future returns. Therefore, policy gradient methods with standard state-dependent baselines suffer high variance during training. We derive a bias-free, input-dependent baseline to reduce this variance, and analytically show its benefits over state-dependent baselines. We then propose a meta-learning approach to overcome the complexity of learning a baseline that depends on a long sequence of inputs. Our experimental results show that across environments from queuing systems, computer networks, and MuJoCo robotic locomotion, input-dependent baselines consistently improve training stability and result in better eventual policies.

研究の動機と目的

外部の入力過程がダイナミクスと報酬に影響を与える環境における強化学習を動機づける。
状態依存ベースラインが入力依存型 MDP における分散を十分に低減しないことを示し、入力依存ベースラインを提案する。
入力依存ベースラインの偏りのない性質と最適形を導出する。
入力依存ベースラインを効率的に訓練する実践的な学習手法（マルチバリューネットワークとメタ学習）を提案する。
多様なタスクに跨る訓練の安定性とポリシー性能の改善を示す。

提案手法

外部入力プロセス z を用いた入力駆動型 MDP を定義し、遷移が (s, a, z) に依存する。
入力依存ベースライン b(omega, z) が A2C / TRPO / 関連手法のポリシー勾配推定量にバイアスを導入しないことを証明する。
最適な入力依存ベースラインの式 b*(omega, z) を導出し、実用的な代理式 b(omega, z) = E_{a ~ pi}[Q(omega, a, z)] を提示する。
入力依存ベースラインのための2つの効率的な学習戦略を導入する： (i) 固定された入力インスタンスに対するマルチバリューネットワーク，(ii) 特定の入力列に適応させるメタ学習（MAML ベース）のアプローチ。
訓練中の入力の再現性（入力列を繰り返すこと）は、入力依存ベースラインの効果的な推定を可能にすることを示す。
離散アクション（ロードバランシング、ビットレート適応）と連続アクション（乱れを伴う MuJoCo ロコモーション）ドメインの双方にベースラインを適用する。

実験結果

リサーチクエスチョン

RQ1入力駆動型 MDP に対して、入力依存ベースラインはバイアスを導入せずにポリシー勾配法の分散を低減できるか？
RQ2入力依存ベースラインの最適形は何で、実践的にはどのように効率的に学習できるか？
RQ3入力依存ベースラインは多様な入力駆動環境において訓練の安定性と最終的なポリシー性能を改善するか？
RQ4メタ学習や反復入力訓練は、多くの入力列にまたがる入力依存ベースラインの学習をどう促進できるか？

主な発見

入力依存ベースラインは、状態依存ベースラインと比較して勾配分散を一貫して低減し、ポリシー性能を改善する。
独立した入力過程の下で、入力依存ベースラインは A2C や TRPO などのポリシー勾配法に対して偏りを生じさせない。
最適な入力依存ベースラインは観測と未来の入力列の関数である；実用的には条件付き値関数 V(omega, z) を学習できる。
シミュレートされたロボット移動において、入力依存ベースラインを用いた TRPO は、状態依存ベースラインと比較して最大で 3× のテスト報酬を達成する。
離散アクション課題（ロードバランシングとビットレート適応）では、入力依存ベースラインは分散を削減し、テスト報酬を約25–33%改善する。
メタベースライン（MAML ベース）は、訓練中に多くの入力過程を活用することで、単一ベースラインよりしばしば優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。