QUICK REVIEW

[論文レビュー] Few-shot Natural Language Generation for Task-Oriented Dialog

Baolin Peng, Chenguang Zhu|arXiv (Cornell University)|Feb 27, 2020

Topic Modeling参考文献 27被引用数 31

ひとこと要約

この論文は FewShotWOZ を、タスク指向ダイアログの few-shot NLG ベンチマークとして導入し、SC-GPT は限られたラベルデータでドメイン固有の流暢な応答を生成する能力に優れた semantically conditioned GPT-2 ベースのモデルである。

ABSTRACT

As a crucial component in task-oriented dialog systems, the Natural Language Generation (NLG) module converts a dialog act represented in a semantic form into a response in natural language. The success of traditional template-based or statistical models typically relies on heavily annotated data, which is infeasible for new domains. Therefore, it is pivotal for an NLG system to generalize well with limited labelled data in real applications. To this end, we present FewShotWoz, the first NLG benchmark to simulate the few-shot learning setting in task-oriented dialog systems. Further, we develop the SC-GPT model. It is pre-trained on a large set of annotated NLG corpus to acquire the controllable generation ability, and fine-tuned with only a few domain-specific labels to adapt to new domains. Experiments on FewShotWoz and the large Multi-Domain-WOZ datasets show that the proposed SC-GPT significantly outperforms existing methods, measured by various automatic metrics and human evaluations.

研究の動機と目的

タスク指向ダイアログにおける NLG の普及を促進し、新しいドメインでのラベル付きデータが乏しい状況でも高性能を発揮させる。
FewShotWOZ を提案し、複数のドメインにわたる few-shot 適応をシミュレートする。
SC-GPT を開発し、コントロール可能で流暢な NLG のためのセマンティックに条件付けられた事前学習モデルを構築する。
FewShotWOZ と MultiWOZ において、自動評価指標と人間評価の双方でベースラインを上回ることを示す。

提案手法

3 段階の学習レシピを用いる（i）大規模なプレーンテキスト事前学習（GPT-2 バックボーン）;（ii）注釈付きダイアログアクトと応答に基づくダイアログアクト条件付き事前学習;（iii）限定的なドメインラベルでのドメイン特異的微調整。
ダイアログアクトを、事前学習および微調整時にターゲット発話に付随する連続的な制御コードとして表現する。
オートレグレッシブ Transformers を用いて p_theta(x|A) を、ダイアログアクト A に基づく生成でモデル化する。
新しいドメインに対して、数十程度のドメイン特異的ラベルだけで SC-GPT を微調整し、新規アクトとスロットへ適応させる。
デ lexicalization を避け、セマンティックなアクトに基づくコントロール可能な生成を可能にすることで、柔軟性を維持する。

実験結果

リサーチクエスチョン

RQ1SC-GPT は、最小限のドメイン固有ラベルデータで新しいドメインへうまく一般化できるか。
RQ2大規模なダイアログアクト注釈コーパスでの事前学習は、 few-shot NLG における controllability と fluency をベースラインより改善するか。
RQ3FewShotWOZ は、実世界のタスク指向ダイアログシステムにおける few-shot 適応の課題をどう反映するか。

主な発見

Model	Entity F1	BLEU
SC-LSTM	80.42	21.6
HDSA	87.30	26.48
GPT-2	87.70	30.71
SC-GPT	88.37	30.76

SC-GPT は FewShotWOZ と MultiWOZ の全体性能で自動評価指標と人間評価の双方で最高を達成。
SC-GPT は few-shot 設定で、SC-LSTM および GPT-2 と比較してスロットエラー率（ERR）を著しく低減し、BLEU を改善。
人間評価では、SC-GPT がドメイン横断で情報性と自然さの点でベースラインを上回る。
SC-GPT は unseen ダイアログアクトに対して、ベースラインよりも一般化され、 unseen アクトでの ERR が notably低い。
MultiWOZ では、SC-GPT が最良の BLEU を示し、訓練データが豊富な場合は GPT-2 も有意に競合。
FewShotWOZ ベンチマークは、SC-GPT を用いることで一般化とコントローラビリティの強力な利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。