QUICK REVIEW

[論文レビュー] Diversity-Driven Exploration Strategy for Deep Reinforcement Learning

Zhang-Wei Hong, Tzu-Yun Shann|arXiv (Cornell University)|Feb 13, 2018

Reinforcement Learning in Robotics参考文献 26被引用数 50

ひとこと要約

この論文は、距離ベースの正則化項を損失に追加することでポリシーの多様性とより良い探索を促進する、多様性駆動の探索手法を紹介し、適応 scaling、オフポリシーおよびオンポリシーのDRLに適用可能で、gridworld、Atari、MuJoCoで検証した。

ABSTRACT

Efficient exploration remains a challenging research problem in reinforcement learning, especially when an environment contains large state spaces, deceptive local optima, or sparse rewards. To tackle this problem, we present a diversity-driven approach for exploration, which can be easily combined with both off- and on-policy reinforcement learning algorithms. We show that by simply adding a distance measure to the loss function, the proposed methodology significantly enhances an agent's exploratory behaviors, and thus preventing the policy from being trapped in local optima. We further propose an adaptive scaling method for stabilizing the learning process. Our experimental results in Atari 2600 show that our method outperforms baseline approaches in several tasks in terms of mean scores and exploration efficiency.

研究の動機と目的

DRLにおける頑健な探索を促進して、欺瞞的およびまばらな報酬を克服するための探索を動機づける。
最近のポリシーからの乖離を奨励する損失関数の増強を開発する。
このアプローチをオフポリシーとオンポリシーの両方のアルゴリズムと互換性を持たせる。
探索と活用のバランスを取るための適応的スケーリング戦略を提案する。

提案手法

ポリシーの多様性を促進するために、損失 L_D = L - E_{pi' in Pi'}[ alpha D(pi, pi') ] を定義する。
現在のポリシーと最近のポリシー Pi' の間の距離測度 D（KL発散、L2、またはMSE）を用いる。
距離項をそれらの損失関数に組み込むことで Div-DQN および Div-DDPG に手法を適用する。
距離項を計算するために最近のポリシーの集合を維持して Div-A2C を適用する。
距離ベースおよびパフォーマンスベースの方法を介して alpha の適切なスケーリングを導入する。
トレーニングを安定化させるために距離測度 D をクリップする。

実験結果

リサーチクエスチョン

RQ1大規模な状態空間、欺瞞的な報酬、またはまばらな報酬を含む環境で、多様性駆動探索は学習を改善するか。
RQ2距離ベースの損失項はオフポリシーとオンポリシーのDRLアルゴリズムの両方に効果的に組み込めるか。
RQ3適応スケーリング戦略は学習の安定性と性能にどう影響するか。
RQ4さまざまな距離測度（KL、L2、MSE）が探索効率と最終性能に及ぼす影響は何か。

主な発見

多様性駆動探索は、欺瞞的またはまばらな報酬を持つ巨大な gridworld でより良い探索とポリシー性能を実現します。
Div-DQN および Div-A2C は、Atari 2600 ゲームと MuJoCo タスク全体でベースラインと同等または優れた性能を達成し、多くのケースで学習がより速い。
適応スケーリング戦略（距離ベースおよびパフォーマンスベース）は、特にオンポリシー手法で安定性と最終性能を向上させる。
このアプローチは、最近のポリシーとは異なるポリシーを試すことを奨励することで探索を改善し、新規状態の訪問を増加させる。
標準的な探索法と比べ、提案手法は複数のベンチマークで局所最適解や欺瞞的報酬をより効果的に回避します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。