QUICK REVIEW

[論文レビュー] Modelling Hierarchical Structure between Dialogue Policy and Natural Language Generator with Option Framework for Task-oriented Dialogue System

Jianhong Wang, Yuan Zhang|arXiv (Cornell University)|May 3, 2021

Topic Modeling参考文献 54被引用数 2

ひとこと要約

本稿では、タスク指向対話におけるタスク成功確率と発話の理解可能性の両方を向上させるために、オプションに基づく構造を用いて対話方針と自然言語生成（NLG）をモデル化する階層的強化学習フレームワークHDNOを提案する。方針とNLGを非同期学習で分離し、言語モデルに基づく識別器を報酬設計に組み込むことで、MultiWoz 2.0および2.1で最先端の性能を達成し、自動評価および人的評価の指標において顕著な向上を示した。

ABSTRACT

Designing task-oriented dialogue systems is a challenging research topic, since it needs not only to generate utterances fulfilling user requests but also to guarantee the comprehensibility. Many previous works trained end-to-end (E2E) models with supervised learning (SL), however, the bias in annotated system utterances remains as a bottleneck. Reinforcement learning (RL) deals with the problem through using non-differentiable evaluation metrics (e.g., the success rate) as rewards. Nonetheless, existing works with RL showed that the comprehensibility of generated system utterances could be corrupted when improving the performance on fulfilling user requests. In our work, we (1) propose modelling the hierarchical structure between dialogue policy and natural language generator (NLG) with the option framework, called HDNO, where the latent dialogue act is applied to avoid designing specific dialogue act representations; (2) train HDNO via hierarchical reinforcement learning (HRL), as well as suggest the asynchronous updates between dialogue policy and NLG during training to theoretically guarantee their convergence to a local maximizer; and (3) propose using a discriminator modelled with language models as an additional reward to further improve the comprehensibility. We test HDNO on MultiWoz 2.0 and MultiWoz 2.1, the datasets on multi-domain dialogues, in comparison with word-level E2E model trained with RL, LaRL and HDSA, showing improvements on the performance evaluated by automatic evaluation metrics and human evaluation. Finally, we demonstrate the semantic meanings of latent dialogue acts to show the explanability for HDNO.

研究の動機と目的

タスク指向対話システムにおけるタスク成功確率と発話の理解可能性のトレードオフを解消すること。
明示的な対話行動アノテーションを必要とせず、潜在的対話行動表現を用いて対話方針とNLGの階層的関係をモデル化すること。
階層的強化学習フレームワークにおける非同期更新により、対話方針とNLGの安定的かつ収束性のある学習を可能にすること。
事前学習済み言語モデルを用いた識別器を追加報酬信号として用いることで、生成されるシステム発話の自然さと一貫性を向上させること。

提案手法

オプションを用いて対話方針とNLGの間の階層的構造をモデル化する、階層的強化学習フレームワークHDNOを提案し、オプション空間として潜在的対話行動を用いる。
対話方針とNLGのための別々の探索および更新スケジュールを採用する階層的強化学習を用い、理論的に局所最適化への収束を保証する。
対話方針とNLG間の非同期学習更新を導入することで、学習ダイナミクスの分離を実現し、安定性を向上させる。
事前学習済み言語モデルに基づく識別器を導入し、自然言語レベルの報酬信号を提供することで、生成発話の理解可能性を向上させる。
潜在的対話行動を、方針とNLGの間の共有表現として用いることで、手動で設計された対話行動テンプレートの必要性を回避する。
タスク成功確率と識別器に基づく自然さスコアの合成報酬を用いて、エンドツーエンドでシステムを強化学習で訓練する。

実験結果

リサーチクエスチョン

RQ1オプションを用いた階層的強化学習フレームワークは、タスク指向対話システムにおけるタスク成功確率と発話の理解可能性の両方を向上させることができるか？
RQ2対話方針とNLG間の非同期学習は、共同最適化における収束性と安定性を保証するか？
RQ3言語モデルに基づく識別器は、生成されるシステム発話の自然さと流暢さを効果的に向上させることができるか？
RQ4HDNOは、MultiWoz 2.0および2.1のようなマルチドメインベンチマークにおいて、既存のE2Eおよび階層的対話モデルをどれほど上回るか？
RQ5学習された潜在的対話行動は意味的に意味があり、人間の理解に耐えうる解釈可能性を持つのか？

主な発見

HDNOは、RLで訓練された単語レベルのE2Eモデル、LaRL、HDSAと比較して、MultiWoz 2.0および2.1において自動評価および人的評価の両方の指標で優れた性能を達成した。
言語モデルに基づく識別器の導入により、タスク成功確率に悪影響を与えることなく、生成発話の理解可能性が顕著に向上した。
対話方針とNLG間の非同期学習により、理論的に保証されたように、安定した学習と局所最適化への収束が実現された。
HDNOが学習した潜在的対話行動は意味的に意味があり、一貫性のある対話状態として解釈可能であり、モデルの説明可能性を示した。
HDNOは、成功確率と自然さの両面で強力なベースラインを上回り、BLEU、BLEU-4、人的評価による自然さスコアにおいて測定可能な向上を示した。
本フレームワークは、方針とNLGの学習を効果的に分離しながらも、高い性能を維持しており、オプションに基づく階層的構造の有効性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。