Skip to main content
QUICK REVIEW

[論文レビュー] Task-Oriented Dialog Systems that Consider Multiple Appropriate Responses under the Same Context

Yichi Zhang, Zhijian Ou|arXiv (Cornell University)|Nov 24, 2019
Topic Modeling参考文献 29被引用数 24
ひとこと要約

本稿では、タスク指向対話システムの性能を向上させるために、バランスの取れた状態から行動へのマッピングを学習するMulti-Action Data Augmentation (MADA)というフレームワークを提案する。MADAは、各対話状態に対して複数の有効なシステム行動を含む訓練データを拡張することで、ポリシーの多様性と応答品質を向上させ、MultiWOZで最先端の結果を達成し、応答の多様性と適切さにおいて顕著な向上を示した。

ABSTRACT

Conversations have an intrinsic one-to-many property, which means that multiple responses can be appropriate for the same dialog context. In task-oriented dialogs, this property leads to different valid dialog policies towards task completion. However, none of the existing task-oriented dialog generation approaches takes this property into account. We propose a Multi-Action Data Augmentation (MADA) framework to utilize the one-to-many property to generate diverse appropriate dialog responses. Specifically, we first use dialog states to summarize the dialog history, and then discover all possible mappings from every dialog state to its different valid system actions. During dialog system training, we enable the current dialog state to map to all valid system actions discovered in the previous process to create additional state-action pairs. By incorporating these additional pairs, the dialog policy learns a balanced action distribution, which further guides the dialog model to generate diverse responses. Experimental results show that the proposed framework consistently improves dialog policy diversity, and results in improved response diversity and appropriateness. Our model obtains state-of-the-art results on MultiWOZ.

研究の動機と目的

  • 共通の対話ポリシーに有利な不均衡なデータ分布が原因で、タスク指向対話システムに多様性が欠けているという問題に対処すること。
  • 同じ対話文脈に対して複数の有効な行動が取れるという、対話システムの本質的な1対多の性質をモデル化すること。
  • 訓練中に各対話状態に対してすべての有効なシステム行動を特定し、組み込むことで、対話ポリシー学習を改善すること。
  • バランスの取れたポリシー学習を通じて、モデルが多様で適切な応答を生成できるように応答生成の質を向上させること。
  • 応答の多様性と適切さの両面で、MultiWOZベンチマークで最先端のパフォーマンスを達成すること。

提案手法

  • 表面的な言語のばらつきを減らし、意味的コンテンツに焦点を当てるために、発話文を脱デリシャル化する。
  • 対話履歴を対話状態とシステム行動を使って表現し、構造的かつ要約された表現を生成する。
  • 全訓練コーパス全体にわたって、対話状態からシステム行動へのすべての有効なマッピングを抽出し、保存する。
  • 訓練中に、各対話状態に対して真の行動(アノテーション済み)だけでなく、すべての有効なシステム行動を含むようにデータセットを拡張する。
  • 拡張された状態-行動ペアを活用して多様な応答を生成できるように、ドメインに配慮したマルチデコーダー(DAMD)モデルを訓練する。
  • デコード段階でtop-kサンプリングを用いることで、行動の多様性を最大化し、応答の多様性を向上させる。

実験結果

リサーチクエスチョン

  • RQ11つの対話状態に対して複数の有効なシステム行動をモデル化することで、タスク指向対話システムにおける応答の多様性が向上するか?
  • RQ2状態-行動マッピングに基づくデータ拡張は、対話ポリシー学習と応答品質にどのように影響するか?
  • RQ3バランスの取れた状態-行動ポリシーは、マルチドメインベンチマークで応答の適切さと多様性をどの程度向上させられるか?
  • RQ4提案されたMADAフレームワークは、異なる対話モデルやアーキテクチャに一般化可能か?
  • RQ5ドメインに配慮したデコーディングの統合は、マルチドメイン環境におけるデータ拡張の有効性をどのように向上させるか?

主な発見

  • 提案されたMADAフレームワークは、応答の多様性を顕著に向上させ、人間評価では平均多様性スコアが3.65に達した。これはベースラインのDAMDモデルの3.12と比較して顕著な向上である。
  • データ拡張を施したDAMDは、平均適切さスコア2.53を達成し、応答品質の向上を示している。
  • モデルは人間評価において63.0%の応答を「良い」と評価しており、ベースラインと比較して顕著な改善が確認された。
  • フレームワークは支配的ポリシーへの依存を軽減し、直接的おすすめなどの頻度が低いが有効な行動の生成を可能にした。
  • 人間評価では、データ拡張を施したモデルがより多様で質の高い応答を生成することが確認され、高品質応答の割合がベースライン比17%増加した。
  • MADAを適用したDAMDモデルは、多様性と適切さの両面でHDSAを上回り、分類手法よりもデコーディングベースの行動生成の有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。