QUICK REVIEW

[論文レビュー] Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems

Andrea Madotto, Zihan Liu|arXiv (Cornell University)|Aug 14, 2020

Topic Modeling参考文献 22被引用数 36

ひとこと要約

本論文は、 few-shot の例で大規模言語モデル（GPT-2 系）をプリミングすることにより、パラメータ更新なしでタスク指向対話における NLU、DST、対話方針、NLG のタスクを解く方法を調査し、ファインチューニングのベースラインと比較し、制限を整理します。

ABSTRACT

Task-oriented dialogue systems use four connected modules, namely, Natural Language Understanding (NLU), a Dialogue State Tracking (DST), Dialogue Policy (DP) and Natural Language Generation (NLG). A research challenge is to learn each module with the least amount of samples (i.e., few-shots) given the high cost related to the data collection. The most common and effective technique to solve this problem is transfer learning, where large language models, either pre-trained on text or task-specific data, are fine-tuned on the few samples. These methods require fine-tuning steps and a set of parameters for each task. Differently, language models, such as GPT-2 (Radford et al., 2019) and GPT-3 (Brown et al., 2020), allow few-shot learning by priming the model with few examples. In this paper, we evaluate the priming few-shot ability of language models in the NLU, DST, DP and NLG tasks. Importantly, we highlight the current limitations of this approach, and we discuss the possible implication for future work.

研究の動機と目的

モジュラーなタスク指向対話システム（NLU、DST、DP、NLG）のデータ収集を削減する動機づけ。
コアタスク全体にわたるファインチューニングなしの few-shot アプローチとして言語モデル・プリミングを評価する。
限られたデータの下で、LM-プリミングによる few-shot の結果をファインチューニングベースラインと比較する。
実用上の制限を特定し、長い文脈を扱えるモデルと今後の課題の方向性を示す。

提案手法

パラメータを更新せずに few-shot 学習のために LMs をプリミングするため、3 種類のプレフィックススタイル（バイナリ、値ベース、生成型）を使用する。
NLU（スロット埋めと意図推定）、DST、ACT、NLG タスクの入力と出力を対応させるためにプレフィックスを適用する。
標準データセットで評価（NLU のスロット埋めと意図には SNIPS；DST と ACT には MultiWOZ；NLG には FewShotWOZ）。
LM-プリミングによる few-shot の結果を、選択したファインチューニングベースライン（例: TOD-BERT、BERT、SC-GPT の派生モデル）と比較する。
コンテキストウィンドウの制約の下で、異なる GPT-2 モデルサイズ（SMALL、LARGE、XL）を用いて実験する。

実験結果

リサーチクエスチョン

RQ1LM プリミングは、ファインチューニング済みベースラインと比べて NLU、DST、ACT、NLG で競争力のある few-shot パフォーマンスを可能にするか？
RQ2各タスクにおける few-shot パフォーマンスにモデルサイズはどのように影響するか？
RQ3プレフィックス設計、ショット数、入力長に関する LM プリミングの実用的な制限は何か？
RQ4タスク指向対話システムの few-shot 能力を高める将来の改良は何か？

主な発見

より大きい GPT-2 モデルを用いた LM プリミングは、一般に NLU および NLG タスクでより良い性能をもたらす。
DST および ACT では、より大きい XL モデルが常に LARGE モデルを上回るわけではなく、プレフィックス設計や文脈効果が影響していることを示唆する。
NLU、ACT、NLG では、限られたショット数の下で LM プリミングは最も弱いファインチューニングベースラインと同等またはそれを上回る結果を達成できる。
2つの主な制限が特定されている: (i) バイナリ/値ベースのプレフィックスはクラス/スロットごとに複数回のフォワードパスを必要とする, (ii) GPT-2 の 1024 トークン入力制限がショット数を制限する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。