QUICK REVIEW

[論文レビュー] Learning to Repeat: Fine Grained Action Repetition for Deep Reinforcement Learning

Sahil Sharma, Aravind S. Lakshminarayanan|arXiv (Cornell University)|Feb 20, 2017

Reinforcement Learning in Robotics被引用数 30

ひとこと要約

本稿では、深層強化学習エージェントが動的かつ同時に行動とその最適な繰り返し時間間隔を学習できる汎用フレームワークFiGARを提案する。このフレームワークにより、Atari、MuJoCo、TORCSの多様な環境で、ポリシー性能が向上する。行動選択と繰り返しタイミングを因子化されたポリシーによって分離することで、元のアルゴリズムを変更せずに、サンプル効率とポリシー品質が向上する。

ABSTRACT

Reinforcement Learning algorithms can learn complex behavioral patterns for sequential decision making tasks wherein an agent interacts with an environment and acquires feedback in the form of rewards sampled from it. Traditionally, such algorithms make decisions, i.e., select actions to execute, at every single time step of the agent-environment interactions. In this paper, we propose a novel framework, Fine Grained Action Repetition (FiGAR), which enables the agent to decide the action as well as the time scale of repeating it. FiGAR can be used for improving any Deep Reinforcement Learning algorithm which maintains an explicit policy estimate by enabling temporal abstractions in the action space. We empirically demonstrate the efficacy of our framework by showing performance improvements on top of three policy search algorithms in different domains: Asynchronous Advantage Actor Critic in the Atari 2600 domain, Trust Region Policy Optimization in Mujoco domain and Deep Deterministic Policy Gradients in the TORCS car racing domain.

研究の動機と目的

固定または静的な行動繰り返しの制限が、時間抽象化とポリシーの柔軟性を制限するという問題に対処すること。
エージェントが「どの行動を取るか」だけでなく「どのくらいの時間繰り返すか」を学習できるようにすることにより、より効率的かつ適応的な意思決定を可能にすること。
A3C、TRPO、DDPGといった既存のポリシーグラデントアルゴリズムに、より良い性能をもたらす汎用的で即挿入可能な拡張を提供すること。
動的行動繰り返しが、複雑な制御タスクにおいて、より高いサンプル効率と最終的なパフォーマンスをもたらすことを実証的に検証すること。

提案手法

行動選択と繰り返し時間間隔を別々の確率分布でモデル化する因子化されたポリシー表現をFiGARが導入する。
ポリシーネットワークを変更し、行動確率と選択された行動の繰り返し時間スケールの分布を出力するようにする。
行動繰り返しはマクロアクションとして実装される：エージェントは行動と期間を選択し、その期間にわたり同じ行動を繰り返し実行する。
本手法は任意のポリシーグラデントアルゴリズムと互換性があり、標準的な行動サンプリングステップを、連合された行動-期間サンプリングに置き換えることで、スムーズに統合可能である。
行動繰り返し集合Wは設定可能である（例：1から50までの整数、または素数の部分集合）—これにより、時間抽象化の探索における柔軟性が得られる。
ハイパーパrameterはバリエーション間で共有されている（例：FiGAR-30でチューニング済み）—これにより、再チューニングなしに異なる繰り返し集合に対して一般化が可能であることが示された。

実験結果

リサーチクエスチョン

RQ1動的行動繰り返しは、深層強化学習における学習効率と最終的パフォーマンスを向上させることができるか？
RQ2行動選択と繰り返し時間間隔を分離することで、固定繰り返しより優れた時間抽象化が達成できるか？
RQ3FiGARは、元の強化学習アルゴリズムを変更せずに、離散的および連続的行動空間の両方のタスクに効果的に適用可能か？
RQ4行動繰り返し集合Wの選択が、環境間での学習パフォーマンスと一般化に与える影響は何か？
RQ5FiGARは、Atariゲームのような非常に決定論的な環境で、長時間のマクロアクションや正確なタイミングを学習できるか？

主な発見

FiGARは31種類のAtari 2600ゲームにおいて、A3Cベースラインを著しく上回り、FiGAR-Pでは平均スコア20,005.40、FiGAR-50では22,904.50を記録したのに対し、ベースラインは2,769.40であった。
MuJoCoドメインでは、FiGAR-30-50がSeaquestで平均スコア1,828.90を達成し、ベースラインの1,268.75を上回った。
TORCSレーシングドメインでは、FiGAR-30-50がスコア11,090.00を記録し、ベースラインの2,364.00を大幅に上回った。
本フレームワークは、異なる繰り返し集合にわたって良好に一般化する：FiGAR-30でチューニングした固定ハイパーパrameterを用いても、FiGAR-20-30 や FiGAR-P は強力なパフォーマンスを発揮した。
可視化結果から、FiGARは、例として「Freeway」における交通の流れを待つ、または「Seaquest」における敵を捕らえるなど、時間的に拡張されたマクロアクションを学習していることが示された。これは、効果的な時間抽象化を実現していることを裏付けている。
結果から、最適な繰り返し時間間隔を学習することで、滑らかでより効率的なポリシーが得られ、決定論的環境におけるサンプル効率が向上することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。