[論文レビュー] GODEL: Large-Scale Pre-Training for Goal-Directed Dialog
GODEL は、 goal-directed dialog タスクの性能を向上させるための三段階の grounding を備えた大規模な grounded pre-trained dialog モデルを提示し、 baselines に対する few-shot での強力な改善を示すとともに、 intrinsic 指標に加えて extrinsic (utility) 評価を導入する。
We introduce GODEL (Grounded Open Dialogue Language Model), a large pre-trained language model for dialog. In contrast with earlier models such as DialoGPT, GODEL leverages a new phase of grounded pre-training designed to better support adapting GODEL to a wide range of downstream dialog tasks that require information external to the current conversation (e.g., a database or document) to produce good responses. Experiments against an array of benchmarks that encompass task-oriented dialog, conversational QA, and grounded open-domain dialog show that GODEL outperforms state-of-the-art pre-trained dialog models in few-shot fine-tuning setups, in terms of both human and automatic evaluation. A novel feature of our evaluation methodology is the introduction of a notion of utility that assesses the usefulness of responses (extrinsic evaluation) in addition to their communicative features (intrinsic evaluation). We show that extrinsic evaluation offers improved inter-annotator agreement and correlation with automated metrics. Code and data processing scripts are publicly available.
研究の動機と目的
- grounded pre-training を通じて、オープンドメインの goal-directed dialog の性能を向上させる。
- 限られたラベル付きデータで、外部知識(文書、データベース)を要するタスクのファインチューニングを可能にする。
- 内部的対話品質指標とともに、統一された extrinsic(ユーティリティ)評価フレームワークを提供する。
提案手法
- 三段階の grounding 事前学習: 言語ウェブデータ、公開対話データ、 grounding 対話データ。
- 環境テキストとして、対話履歴 S と外部知識 E を連結する sequence-to-sequence Transformer 入力を使用する。
- Grounded pre-training コーパスには DSTC7 Task 2、MS MARCO、UnifiedQA、Schema-Guided Dialog が含まれ、知識 grounded な生成を学習させる。
- knowledge-grounded generation、タスク指向対話、対話型QA の few-shot および full セットアップでファインチューニングする。
- multi-scale(Godel B 220M、Godel L 770M、Godel XL 175B)でモデルを初期化し、T5、BART、BlenderBot のベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1多様なタスクにわたる few-shot ファインチューニングで、grounded pre-training は goal-directed dialog の性能を改善できるか?
- RQ2extrinsic (utility) 評価は、対話タスク全般の自動指標および評価者間の一致度とどのように相関するか?
- RQ3事前学習中の grounding(外部知識 grounding)は、純粋な対話的 pre-training より、タスク指向および知識 grounding 対話で利得をもたらすか?
- RQ4異なるモデルスケール(B、L、XL)は、grounded dialog タスクの性能にどう影響するか?
- RQ5Godel アプローチは、PLMs(T5、GPT-J ベースの XL)間で goal-directed dialog に転用可能か?
主な発見
- Godel は、多くの指標で few-shot ファインチューニングの際、ほとんどのタスクで baseline(T5、DialoGPT)を上回る。
- Grounded pre-training が最良の性能をもたらす。対話のみの pre-training は悪影響で、知識 groundingを用いた生成には grounding が不可欠。
- Godel XL は強力な結果を達成し、few-shot fine-tuning の下で複数のタスクで GPT-3 基準を上回る。
- Extrinsic (utility) 評価は、intrinsic 指標より高い評価者間一致度と自動指標とのより良い相関を示す。
- 人間評価は MultiWOZ、WoW、WoI、CoQA のタスク全体で extrinsic および intrinsic の両方の側面で Godel を T5 より有利とする。
- モデルサイズの拡大は一般的にユーティリティと BLEU 風指標の両方を改善し、grounded dialog タスクで大きな利益をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。