QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning: An Overview

Yuxi Li|arXiv (Cornell University)|Jan 25, 2017

Data Stream Mining Techniques参考文献 399被引用数 542

ひとこと要約

深層強化学習の広範な調査で、コア要素（価値関数、ポリシー、報酬、モデル、計画、探索、知識）、主要メカニズム（注意/記憶、教師なし学習、転移学習、マルチエージェント、階層、学習を学ぶ）、および幅広い応用を詳述する。

ABSTRACT

We give an overview of recent exciting achievements of deep reinforcement learning (RL). We discuss six core elements, six important mechanisms, and twelve applications. We start with background of machine learning, deep learning and reinforcement learning. Next we discuss core RL elements, including value function, in particular, Deep Q-Network (DQN), policy, reward, model, planning, and exploration. After that, we discuss important mechanisms for RL, including attention and memory, unsupervised learning, transfer learning, multi-agent RL, hierarchical RL, and learning to learn. Then we discuss various applications of RL, including games, in particular, AlphaGo, robotics, natural language processing, including dialogue systems, machine translation, and text generation, computer vision, neural architecture design, business management, finance, healthcare, Industry 4.0, smart grid, intelligent transportation systems, and computer systems. We mention topics not reviewed yet, and list a collection of RL resources. After presenting a brief summary, we close with discussions. Please see Deep Reinforcement Learning, arXiv:1810.06339, for a significant update.

研究の動機と目的

深層学習、機械学習、強化学習の基礎を深層RLに関連して要約する。
六つのコアRL要素と深層RLの進歩を支える六つの重要なメカニズムを特定し、説明する。
ゲーム、ロボティクス、NLP、コンピュータビジョン、産業などの分野での深層RLの主要な応用を調査する。

提案手法

価値関数、ポリシー、報酬、モデルと計画、探索、知識を含むコアRL要素を説明する。
注意と記憶、教師なし学習、転移学習、マルチエージェントRL、階層RL、学習を学ぶといった重要なメカニズムを議論する。
深層RLの影響を示すため、様々なドメインにわたる幅広い応用の構造化された概要を提示する。

実験結果

リサーチクエスチョン

RQ1強化学習の基本的な構成要素は何か、そして深層学習はそれらをどのように強化するのか？
RQ2多様なタスクや設定で深層RLを成功させるメカニズムは何か？
RQ3深層RLが顕著な進展を遂げた主要な適用分野はどこか？
RQ4深層RLの研究者にとって関連する資源と今後の方向性は何か？
RQ5コア要素、メカニズム、応用は深層RLの全体像でどのように関連しているか？

主な発見

深層RLは深層ネットワークと強化学習を組み合わせ、エンドツーエンドの表現学習とスケーラビリティの向上を実現する。
注意、記憶、教師なし学習、転移学習、マルチエージェントと階層構造、メタ学習が現代の深層RLの中心的なメカニズムである。
AlphaGo、DQN、および関連する進展は、ゲーム、ロボティクス、NLP、ビジョンなどにわたる経験的成功を体現している。
この概要は、ゲーム、ロボティクス、NLP、CV、金融、医療、教育、産業4.0を含む幅広い応用スペクトルを強調している。
本論文は厳選されたRLリソースを提供し、Sutton & BartoのRLの本が依然として基礎的な参考文献であることを指摘している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。