QUICK REVIEW

[論文レビュー] UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2

Yunyi Yang, Yunhao Li|arXiv (Cornell University)|Dec 7, 2020

Topic Modeling参考文献 40被引用数 32

ひとこと要約

UBARはGPT-2を全対話セッション（ユーザー、信念状態、DB結果、システム動作、応答）でファインチューニングし、完全なエンドツーエンドの TOD システムを構築、生成、方針最適化、エンドツーエンドモデリングの全てでMultiWOZで最先端の結果を達成。実生活の使用を反映するため生成コンテキストを用いて評価し、限定データでの新しいドメインへの移行性を示す。

ABSTRACT

This paper presents our task-oriented dialog system UBAR which models task-oriented dialogs on a dialog session level. Specifically, UBAR is acquired by fine-tuning the large pre-trained unidirectional language model GPT-2 on the sequence of the entire dialog session which is composed of user utterance, belief state, database result, system act, and system response of every dialog turn. Additionally, UBAR is evaluated in a more realistic setting, where its dialog context has access to user utterances and all content it generated such as belief states, system acts, and system responses. Experimental results on the MultiWOZ datasets show that UBAR achieves state-of-the-art performances in multiple settings, improving the combined score of response generation, policy optimization, and end-to-end modeling by 4.7, 3.5, and 9.4 points respectively. Thorough analyses demonstrate that the session-level training sequence formulation and the generated dialog context are essential for UBAR to operate as a fully end-to-end task-oriented dialog system in real life. We also examine the transfer ability of UBAR to new domains with limited data and provide visualization and a case study to illustrate the advantages of UBAR in modeling on a dialog session level.

研究の動機と目的

現実の使用をより正確に反映するため、タスク指向対話をターンレベルからセッションレベルのモデリングへ移行する動機づけ。
信念状態とシステム動作を含む完全な対話セッションで訓練されたGPT-2ベースのモデル（UBAR）を提案する。
文脈中の生成コンテンツを用いたエンドツーエンド、生成、ポリシー最適化設定を評価する。
限定データでの新ドメインへの移行性を分析し、可視化とケーススタディを通じて洞察を提供する。

提案手法

各ターンごとにU, B, D, A, Rを連結した対話セッション全体のシーケンスでDistilGPT-2をファインチューニングする。
応答をデレキシカル化し、信念状態とシステム動作にはドメイン適応型で結合を分離したスパンを用いて一般化を向上させる。
信念状態とシステム動作を、ドメイン-スロット/値およびドメイン-アクト/スパントークンで表現して生成を地固めする。
セッションレベルのシーケンスに対して標準的な言語モデル学習目的で訓練する（追加の教師付き目的はなし）。
3つの設定で評価する：応答生成のための真実の信念/状態コンテキスト、ポリシー最適化のための真実の信念/状態、生成コンテンツを用いたエンドツーエンドモデリング。

実験結果

リサーチクエスチョン

RQ1中間情報（信念状態、システム動作）を含むセッションレベルのトレーニングはエンドツーエンド TOD の性能を改善できるか？
RQ2生成対話コンテキストを用いた評価は（真実値ではなく）実運用をより正確に反映するか？
RQ3限定データで未知のドメインへモデルがどれだけ移行できるか？
RQ4対話コンテキストの長さと内容（真実値 vs 生成）のエンドツーエンド TOD性能への影響は？

主な発見

モデル	信念状態	システム動作	Inform	Success	BLEU	Combined
HDSA	oracle	oracle	87.9	78.0	30.4	113.4
DAMD	oracle	oracle	95.4	87.2	27.3	118.5
SimpleTOD	oracle	oracle	92.3	85.8	18.67	107.7
UBAR (ours)	oracle	oracle	96.9	92.2	28.6	123.2
SFN+RL	oracle	generated	82.7	72.1	16.3	93.7
HDSA	oracle	generated	82.9	68.9	23.6	99.5
ARDM	oracle	-	87.4	72.8	20.6	100.7
DAMD	oracle	generated	89.2	77.9	18.6	102.2
SimpleTOD	oracle	generated	88.9	67.1	16.9	94.9
SOLOIST	oracle	-	89.6	79.3	18.0	102.5
UBAR (ours)	oracle	generated	94.0	83.6	17.2	106.0
SFN+RL	generated	generated	73.8	58.6	16.9	83.0
DAMD	generated	generated	76.3	60.4	16.6	85.0
SimpleTOD	generated	generated	84.4	70.1	15.0	92.3
SOLOIST	generated	-	85.5	72.9	16.5	95.7
UBAR (ours)	generated	generated	95.4	80.7	17.0	105.1

UBARはMultiWOZ 2.0/2.1で応答生成、ポリシー最適化、エンドツーエンドモデリングの全分野で最先端の結果を達成。
エンドツーエンドモデリングにおいて、UBARは全生成コンテキストを使用してベースラインと比較して結合スコアを著しく改善。
セッションレベルのシーケンス訓練と生成対話コンテキストの使用は実生活のエンドツーエンド TOD性能に不可欠。
UBARは限定データで新しいドメインへの移行能力を示し、特に少数ショットファインチューニングで効果があるが、データ不足はなお顕著。
アブレーション研究は、文脈の信念状態とシステム動作が、ユーザー発話/応答よりも重要であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。