QUICK REVIEW

[論文レビュー] Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Tom Zahavy, Matan Haroush|arXiv (Cornell University)|Sep 6, 2018

Reinforcement Learning in Robotics参考文献 54被引用数 77

ひとこと要約

この論文はAE-DQNを紹介します。深層強化学習アーキテクチャで、DQNとAction Elimination Network (AEN)を共同学習し、 elimination signal を用いてサブ最適な行動を絞り込み、大規模な行動空間（テキストベースのゲームZorkのようなもの）での学習を高速化します。

ABSTRACT

Learning how to act when there are many available actions in each state is a challenging task for Reinforcement Learning (RL) agents, especially when many of the actions are redundant or irrelevant. In such cases, it is sometimes easier to learn which actions not to take. In this work, we propose the Action-Elimination Deep Q-Network (AE-DQN) architecture that combines a Deep RL algorithm with an Action Elimination Network (AEN) that eliminates sub-optimal actions. The AEN is trained to predict invalid actions, supervised by an external elimination signal provided by the environment. Simulations demonstrate a considerable speedup and added robustness over vanilla DQN in text-based games with over a thousand discrete actions.

研究の動機と目的

極めて大きな行動空間を持つ環境で、多くの行動が冗長または無関連であるという動機付けのもと学習方針を導く。
消去信号を用いて適格な行動を絞り込み、サンプルの複雑さを削減し深層RLの堅牢性を向上させるフレームワークを提案する。
NLPベースのタスクで行動価値と除外ルールを共同に学習するデュアルネットワークアーキテクチャ（DQN + AEN）を開発・評価する。

提案手法

Action-Elimination Deep Q-Network (AE-DQN)を導入し、DQNとAction Elimination Network (AEN)を同時に訓練する。
環境から提供される elimination signal を用いて無効な行動を予測するAENを使用し、DQNの適格な実行可能な行動集合を導出する。
状態と行動をNLP志向のCNNで表現する；AENの最終層活性化を特徴量として線形文脈バンドットに用い、除外を決定する。
AENの活性化から周期的に文脈バンドットモデルを更新するバッチ更新フレームワークを構築し、 elimination をMDP学習からデカップリングする。
線形文脈バンドットからの濃度境界に基づく action elimination 基準を定義し、有効な行動を高い確率で保持できるようにする。
有効な行動の絞り込みを用いたアルゴリズム（AE-DQN）を提供し、適格な行動に対してepsilon-greedy探索を行いながら標準のQ学習更新を織り交ぜる。
Egg Quest や Troll Quest のサブドメインを含む何千もの行動を持つテキストベースのZorkドメインで評価し、vanilla DQNやベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1行動除外が学習を大規模な行動空間で加速させ、標準のDQNと比較して成績を改善するか？
RQ2分離された文脈バンドットモデルは、妥当な行動を排除することなく、無効な行動を高確率で識別できるか？
RQ3AE-DQNは組合せ的に大きな行動空間を持つテキストベースのゲームでどの程度機能し、ハイパーパラメータにどれだけ頑健か？
RQ4大規模なNLP-行動環境における行動除外がサンプル効率と最終性能に与える影響は何か？

主な発見

AE-DQNは大規模な行動空間設定（例：Zork）で、従来のDQNよりも学習を早く進め、累積報酬が高い。
行動除外は特に行動集合が非常に大きい場合（例：Egg Trollサブドメイン）に対してハイパーパラメータ設定に対する頑健性を生む。
AENの活性化を用いた文脈バンドットの形成により、サブ最適な行動の信頼性の高い除外が可能となり、無効な行動の探索を削減する。
モジュラーな除外アプローチは、十分な除外精度が得られた場合にサンプル複雑さを低減し、高性能な方針へ収束する。
Zorkとそのサブドメインにおいて、AE-DQNは従来よりも優勢または競合的な結果を、はるかに大きな行動テンプレートと比較して達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。