QUICK REVIEW

[論文レビュー] Generating Text with Deep Reinforcement Learning

Hongyu Guo|arXiv (Cornell University)|Oct 30, 2015

Topic Modeling参考文献 30被引用数 41

ひとこと要約

本稿では、逐次的に入力を改善する深層強化学習手法を提案する。この手法は、深層Qネットワーク（DQN）を用い、エンコーダ・デコーダLSTMによって状態表現と行動候補を生成し、過去に難しいとされた部分に探索を偏らせる。この方法により、未知の文に対して、グリーディなビームサーチLSTMよりも著しく優れた性能を発揮し、分布外のテストデータにおいてBLEUスコアで111%の相対的改善を達成した。

ABSTRACT

We introduce a novel schema for sequence to sequence learning with a Deep Q-Network (DQN), which decodes the output sequence iteratively. The aim here is to enable the decoder to first tackle easier portions of the sequences, and then turn to cope with difficult parts. Specifically, in each iteration, an encoder-decoder Long Short-Term Memory (LSTM) network is employed to, from the input sequence, automatically create features to represent the internal states of and formulate a list of potential actions for the DQN. Take rephrasing a natural sentence as an example. This list can contain ranked potential words. Next, the DQN learns to make decision on which action (e.g., word) will be selected from the list to modify the current decoded sequence. The newly modified output sequence is subsequently used as the input to the DQN for the next decoding iteration. In each iteration, we also bias the reinforcement learning's attention to explore sequence portions which are previously difficult to be decoded. For evaluation, the proposed strategy was trained to decode ten thousands natural sentences. Our experiments indicate that, when compared to a left-to-right greedy beam search LSTM decoder, the proposed method performed competitively well when decoding sentences from the training set, but significantly outperformed the baseline when decoding unseen sentences, in terms of BLEU score obtained.

研究の動機と目的

テキスト再表現や機械翻訳などのNLPタスクにおける可変長シーケンス生成の課題に対処すること。
左から右へのグリーディデコードを強化学習に基づく反復的改善戦略に置き換えることで、未知のシーケンスにおける一般化性能を向上させること。
過去に難しいとされた部分に探索を偏らせることで、エージェントがシーケンスの困難な部分に注目できるようにすること。
LSTMを用いて状態と行動の表現を生成することで、エンドツーエンドのテキスト生成にDQNを適用する可能性を検討すること。
実世界の展開において一般化が重要となる未知のデータにおける性能を評価すること。

提案手法

エンコーダ・デコーダLSTMネットワークが入力シーケンスを処理し、各デコードステップで固定次元のコンテキストベクトルと、DQNのための潜在的単語候補の順位付きリストを生成する。
DQNが候補リストから行動（単語）を選択し、現在のデコード済みシーケンスを段階的に修正する。更新されたシーケンスがDQNに再び入力され、次の反復が行われる。
DQNはQ学習を用いて累積報酬を最大化するように学習し、経験再生とターゲットネットワークを用いて学習を安定化させる。
DQNの探索戦略にアテンション機構を統合し、過去に難しいとされた部分に優先的に探索を向ける。
訓練およびテストの両方で、$ε$-グリーディポリシーを用いて探索と活用のバランスを取る。
最終出力は最後の反復からのデコード済みシーケンスであり、スムージングされたBLEUスコアで評価される。

実験結果

リサーチクエスチョン

RQ1深層Qネットワーク（DQN）は、標準的な左から右へのデコードを上回る反復的改善を効果的に学習できるか？
RQ2特に、過去に難しいとされた部分に探索を偏らせたDQNの探索戦略が、未知のデータにおける一般化に与える影響はいかほどか？
RQ3LSTMから得られる状態と行動表現を用いることで、直接的な状態・行動空間モデリングに比べ、DQNに基づくテキスト生成の性能はどの程度向上するか？
RQ4DQNベースのデコード戦略は、分布外のテスト文において、グリーディビームサーチよりも一般化性能が優れているか？
RQ5推論（テスト）段階での探索が、生成されたシーケンスの最終BLEUスコアに与える影響はいかほどか？

主な発見

訓練データセットに含まれる既知の文では、DQNデコーダはスムージングBLEUスコア0.494を達成し、ベースラインのLSTMビームサーチ（0.425）をわずかに上回った。
未知の文では、DQNデコーダがベースラインを著しく上回り、BLEUスコア0.228（ベースライン0.107）を達成し、相対的に111%の改善を示した。
訓練段階での探索戦略のおかげで、DQNは未知のデータに対してより良い一般化性能を発揮した。これは、探索中に生成されたノイズが多く含まれる合成シーケンスの広い分布から学習したためである。
テスト段階で$ε$-グリーディポリシーを用いた探索を有効にすると性能が低下した。これは、テスト段階では探索を無効にするべきであることを示している。
DQNの学習は約6エポックで収束した。これは、状態と行動表現関数が効果的で、学習可能であることを示している。
この手法は、1回の反復で「New York Times」を「the New York Times」に誤って解析した文を正しく修正し、「Click here to read more from the New York Times」とした。これは、出力を改善する能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。