QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning with a Natural Language Action Space

Ji He, Jianshu Chen|arXiv (Cornell University)|Nov 14, 2015

Topic Modeling参考文献 25被引用数 35

ひとこと要約

本稿では、強化学習におけるQ関数を近似するために、自然言語の状態と行動のための別個のニューラル埋め込みを用いるDeep Reinforcement Relevance Network（DRRN）を提案する。このアプローチにより、テキストベースのゲームにおける有効なポリシー学習が可能となる。DRRNは、先行するDQNベースのモデルを上回り、言い換えられた行動記述に対しても一般化できることを示し、記憶に依存するのではなく、意味的理解を示していることを裏付けている。

ABSTRACT

This paper introduces a novel architecture for reinforcement learning with deep neural networks designed to handle state and action spaces characterized by natural language, as found in text-based games. Termed a deep reinforcement relevance network (DRRN), the architecture represents action and state spaces with separate embedding vectors, which are combined with an interaction function to approximate the Q-function in reinforcement learning. We evaluate the DRRN on two popular text games, showing superior performance over other deep Q-learning architectures. Experiments with paraphrased action descriptions show that the model is extracting meaning rather than simply memorizing strings of text.

研究の動機と目的

テキストベースのゲームのような、無限に及ぶ自然言語行動空間を有する環境における強化学習の課題に対処すること。
固定で離散的な行動空間を仮定する標準的なDQNアーキテクチャの制限を克服し、複雑な言語的行動に不適切である点を改善すること。
状態と行動のテキストの両方の連続的で意味的な表現を学習することで、ポリシー学習と一般化の向上を図ること。
モデルが特定のテキスト文字列を記憶するのではなく、意味的関連性を捉えていることを示すこと、特に言い換えられた行動入力において顕著である。
事前に定義された行動テンプレートに依存せずに、状態と行動埋め込み間の相互作用を用いてQ値関数をエンドツーエンドで学習すること。

提案手法

深層ニューラルネットワークを用いて、状態と行動のテキストを別個の高密度埋め込みベクトルとして表現する。
状態と行動埋め込み間のインタラクション関数（例：内積）を用いて、状態-行動ペアのQ値を計算する。
経験再生とターゲットネットワークを用いたQ学習により、DRRNをエンドツーエンドで学習する。これはDeep Q-Networkと同様の手法である。
入力フレーズにbag-of-words（BOW）表現を用い、学習中に学習される単語埋め込みを活用する。
学習中に探索と活用のバランスを取るために、ソフトマックス探索戦略を適用する。
一般化を評価するために、学習時に見られなかった言い換えられた行動記述でテストを行い、未学習の言語的バリエーションにおけるパフォーマンスを測定する。

実験結果

リサーチクエスチョン

RQ1状態と行動が両方とも自然言語テキストとして表現される場合、深層ニューラルネットワークアーキテクチャがQ値を効果的に学習できるか？
RQ2DRRNアーキテクチャは、言い換えられた行動記述に対しても一般化できるか？これは、パターンの記憶ではなく意味的理解を示していると解釈できるか？
RQ3標準的なDQNおよびDQN変種（例：PA DQN、MA DQN）と比較して、DRRNはテキストベースのゲームにおける学習速度と最終的パフォーマンスで優れているか？
RQ4状態と行動の別個の埋め込みを用いることで、共同符号化と比較して学習効率とパフォーマンスが向上するか？
RQ5モデルの連続的行動表現が、未学習だが意味的に類似した行動テキストへの転送をどの程度可能にするか？

主な発見

DRRNは、'Machine of Death'ゲームの言い換え版で平均報酬10.5を達成し、ベースラインモデル（PA DQN：0.2、MA DQN：2.5）を著しく上回った。
学習時に見られなかった言い換えられた行動記述に対しても、良好な一般化を示しており、これは正確な文字列の記憶ではなく、意味的意味を捉えていることを示している。
元のゲーム設定においても、先行するDQNベースのモデルよりも高い平均報酬を達成しており、特に大きな隠れ層次元（例：100ユニットで10.5の平均報酬）を用いた場合に顕著である。
状態と行動の別個の埋め込みを使用しない代替アーキテクチャと比較して、DRRNはより速く収束し、より優れた解に到達した。
予備の実験では、LSTMが現在の設定ではパフォーマンス向上に寄与しなかったが、大規模なスケールや事前学習設定では効果を発揮する可能性がある。
別個の埋め込みを用いたインタラクションベースのQ関数近似により、自然言語によって定義される潜在的に無限の行動空間を持つ環境でも、効果的な学習が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。