QUICK REVIEW

[論文レビュー] Do recent advancements in model-based deep reinforcement learning really improve data efficiency?

Kacper Kielak|arXiv (Cornell University)|Sep 25, 2019

Reinforcement Learning in Robotics参考文献 19被引用数 30

ひとこと要約

この論文は、より頻繁なネットワーク更新を伴う修正されたRainbow DQNエージェントが、環境モデルの学習を必要とせず、最先端のモデルベースRL手法と同等またはそれ以上のデータ効率を達成することを示している。主な貢献は、今後のデータ効率に関する研究のための新しいベースラインとして、この単純で低複雑性のRainbow DQNの変種を提唱することにある。

ABSTRACT

Reinforcement learning (RL) has seen great advancements in the past few years. Nevertheless, the consensus among the RL community is that currently used model-free methods, despite all their benefits, suffer from extreme data inefficiency. To circumvent this problem, novel model-based approaches were introduced that often claim to be much more efficient than their model-free counterparts. In this paper, however, we demonstrate that the state-of-the-art model-free Rainbow DQN algorithm can be trained using a much smaller number of samples than it is commonly reported. By simply allowing the algorithm to execute network updates more frequently we manage to reach similar or better results than existing model-based techniques, at a fraction of complexity and computational costs. Furthermore, based on the outcomes of the study, we argue that the agent similar to the modified Rainbow DQN that is presented in this paper should be used as a baseline for any future work aimed at improving sample efficiency of deep reinforcement learning.

研究の動機と目的

モデルベースRLがモデルフリー手法よりも本質的にデータ効率が良いという一般的な仮定に挑戦すること。
Rainbow DQNのような既存のモデルフリー手法が、最小限の修正で優れたもしくは同等のデータ効率を達成できるかどうかを調査すること。
複雑なモデルベースアプローチを上回るデータ効率を示す、より単純で低複雑性のベースラインを特定すること。
訓練頻度がデータ効率に与える影響を示すことで、深層強化学習における現在のベンチマーク評価基準を再評価すること。

提案手法

研究では、訓練中にニューラルネットワークパラメータの更新頻度を高めることで、Rainbow DQNアルゴリズムを修正した。
エピソードやトラジェクトリ毎にネットワークを更新するのではなく、環境ステップごとに数ステップごとに更新を行う。
修正されたエージェントは、標準のRainbow DQNアーキテクチャに、優先順位付き経験再生とデュエルネットワークを組み合わせたが、更新スケジューリングを強化している。
修正されたRainbow DQNの性能は、標準的なMuJoCo制御ベンチマークで評価され、最先端のモデルベースRL手法と直接比較された。
公平な比較を確保するため、同じハイパーパrameterと計算制約のもとで訓練が行われた。
結果は、目標パフォーマンス閾値に到達するまでの環境相互作用回数を測定することで、データ効率を評価した。

実験結果

リサーチクエスチョン

RQ1Rainbow DQNのような修正されたモデルフリー代理が、最先端のモデルベースRL手法と同等のデータ効率を達成できるか？
RQ2Rainbow DQNにおけるネットワーク更新頻度の向上が、モデルの複雑性を増さずにデータ効率を著しく向上させるか？
RQ3モデルフリーのエージェントが最適な更新頻度で訓練された場合を考慮すると、モデルベースRLがモデルフリーを上回るデータ効率を持つという現在の一般的な認識は依然として妥当か？
RQ4より単純でモデルフリーのベースラインが、計算コストを考慮しても、複雑なモデルベース手法を上回るデータ効率を達成できるか？

主な発見

頻繁なネットワーク更新を伴う修正されたRainbow DQNは、MuJoCoベンチマークにおいて、最先端のモデルベースRL手法と同等またはそれ以上のパフォーマンスを達成した。
環境モデルの学習を一切行わずに、計算および実装の複雑性を顕著に低減することで、改善されたデータ効率が達成された。
修正されたエージェントは、通常のモデルフリーベースラインが要する環境相互作用回数のわずか一部で、目標パフォーマンスに到達した。
結果から、現在のモデルベース手法が主張するほどデータ効率が優れているとは限らない可能性が示唆され、特にモデルフリーのエージェントが最適な更新頻度で訓練された場合に顕著である。
本研究では、訓練スケジューリングのハイパーパrameter（例：更新頻度）が、モデルフリーRLにおけるデータ効率に顕著な影響を与えることが示された。
著者らは、修正されたRainbow DQNを今後の深層強化学習におけるデータ効率研究の新しい標準ベースラインとして採用すべきだと結論づけた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。