QUICK REVIEW

[論文レビュー] End-to-End Offline Goal-Oriented Dialog Policy Learning via Policy Gradient

Li Zhou, Kevin Small|arXiv (Cornell University)|Dec 7, 2017

Topic Modeling参考文献 15被引用数 31

ひとこと要約

本稿では、人間の介入を要せず、アノテートされていない顧客・エージェント会話トランスクリプトを用いて、ポリシー勾配を活用したエンドツーエンドのオフライン強化学習手法を、目的志向対話ポリシー学習に提案する。オンポリシーとオフポリシーのポリシー勾配を組み合わせ、会話レベルの目標と発話レベルの目標の両方を最適化する新しい報酬関数を採用することで、bAbI Task 6 において最先端の性能を達成し、BLEUスコアを1.55%向上、APIコールの正確一致スコアを14.37%向上させた。

ABSTRACT

Learning a goal-oriented dialog policy is generally performed offline with supervised learning algorithms or online with reinforcement learning (RL). Additionally, as companies accumulate massive quantities of dialog transcripts between customers and trained human agents, encoder-decoder methods have gained popularity as agent utterances can be directly treated as supervision without the need for utterance-level annotations. However, one potential drawback of such approaches is that they myopically generate the next agent utterance without regard for dialog-level considerations. To resolve this concern, this paper describes an offline RL method for learning from unannotated corpora that can optimize a goal-oriented policy at both the utterance and dialog level. We introduce a novel reward function and use both on-policy and off-policy policy gradient to learn a policy offline without requiring online user interaction or an explicit state space definition.

研究の動機と目的

次の発話の尤度のみを最適化する教師ありシーケンス・ツー・シーケンスモデルの限界、すなわち対話全体の目標を考慮しないこと。
オンラインユーザーのインタラクションや事前定義された行動・状態空間を必要とせず、アノテートされていない顧客・エージェントトランスクリプト（TACTs）からエンドツーエンドでオフラインポリシー学習を可能にすること。
オンポリシーとオフポリシーのポリシー勾配法を組み合わせることで、サンプル効率とポリシー最適化を向上させること。
発話レベルの自然さと対話レベルの目標達成（特にAPIコールの正確さ）を同時に最適化する報酬関数の設計。
スロットや対話行動のアノテーションを必要とせず、エンコーダ・デコーダアーキテクチャを用いることで、ドメイン間での一般化を可能にすること。

提案手法

対話応答生成を、各エピソードが1つのエージェント発話に対応するマルコフ決定過程（MDP）としてモデル化し、既知の遷移と報酬を用いたオフライン学習を可能にする。
発話レベルと対話レベルの信号を統合した新しい報酬関数を採用し、予測応答の正確さ、BLEUスコア、APIコール予測の適合率・再現率・F1スコアを含む。
エンコーダ・デコーダアーキテクチャを用いたシーケンス・ツー・シーケンスニューラルネットワークによりポリシーをパrameter化し、手動によるスロットや対話行動のアノテーションなしにエンドツーエンド学習を可能にする。
安定した学習のためオンポリシーのポリシー勾配を用い、収束速度の向上とサンプル効率の改善のためオフポリシーのポリシー勾配を統合する。
重要度サンプリングを固定係数で適用し、トラジェクトリを重み付けし、最終的なポリシーは学習率1e-3でAdamを用いて訓練する。
モデルは、真のエージェント応答を唯一の監視信号として用い、アノテーションなしの生のbAbI Task 6データ上で訓練される。

実験結果

リサーチクエスチョン

RQ1人間の介入を要せず、アノテートされていないコーパスからエンドツーエンドでオフライン強化学習を用いて目的志向対話ポリシーを効果的に学習できるか？
RQ2発話レベルの自然さと対話レベルの目標達成を同時に最適化する報酬関数は、どのように設計できるか？
RQ3オフポリシーのポリシー勾配は、オフライン対話ポリシー学習におけるオンポリシー学習のサンプル効率を向上させられるか？
RQ4提案手法は、応答生成とAPIコール予測の両面で、教師ありシーケンス・ツー・シーケンスモデルをどの程度上回るか？
RQ5スロットや対話行動のドメイン特化アノテーションを必要とせず、モデルはドメイン間で一般化できるか？

主な発見

提案手法はbAbI Task 6で48.69%の発話ごとの正確さを達成し、ベースラインのアテンション付きSeq2Seqモデル（47.29%）およびEricとManningのモデル（48.00%）を上回った。
BLEUスコアは58.25に向上し、ベースラインSeq2Seqモデル比で1.55%向上、EricとManningのモデル比で4.02%向上した。
APIコール予測のF1スコアは76.95に上昇し、ベースライン比1.93%向上し、対話目標との整合性が向上したことを示した。
APIコールの正確一致正確度は49.16%に達し、ベースラインSeq2Seqモデル比で14.37%向上し、パラメータ予測と目標適合性の向上を示した。
ユーザーのシミュレーションや人間の介入、事前定義された行動・状態空間を一切必要とせず、生でアノテートされていないTACTデータから学習に成功した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。