[論文レビュー] Low-Resource Knowledge-Grounded Dialogue Generation
この論文は、言語、文脈、知識 grounding コンポーネントを分離し、それらを非 grounding データとプレーンテキストで事前学習することで、訓練データのごく一部で最先端の成果を達成する、知識 grounded対話生成の disentangled の事前学習デコーダを提案する。
Responding with knowledge has been recognized as an important capability for an intelligent conversational agent. Yet knowledge-grounded dialogues, as training data for learning such a response generation model, are difficult to obtain. Motivated by the challenge in practice, we consider knowledge-grounded dialogue generation under a natural assumption that only limited training examples are available. In such a low-resource setting, we devise a disentangled response decoder in order to isolate parameters that depend on knowledge-grounded dialogues from the entire generation model. By this means, the major part of the model can be learned from a large number of ungrounded dialogues and unstructured documents, while the remaining small parameters can be well fitted using the limited training examples. Evaluation results on two benchmarks indicate that with only 1/8 training data, our model can achieve the state-of-the-art performance and generalize well on out-of-domain knowledge.
研究の動機と目的
- 限られた知識 grounding 訓練データしか利用できない低リソース設定で動作する知識 grounded 対話システムを動機づける。
- 残りのモデルから知識 grounding パラメータを分離して、大半を非 grounding 対話とプレーンテキストから学習できるようにする disentangled 応答デコーダを提案する。
- 大規模な非 grounding データでほとんどのパラメータを事前学習させると、ラベル付きデータの1/8程度で強力な性能を達成し、ドメイン外知識へ一般化できることを示す。
提案手法
- 文脈と知識を二つの別個のエンコーダでエンコードする(文脈エンコーダと知識エンコーダ)。
- デコーダを三つの独立して訓練されたコンポーネントに分解する:言語モデル、文脈処理器、知識処理器、デコードマネージャーによって協調させる。
- 訓練時と推論時に各語をどのコンポーネントが予測するかを選択するために、Gumbel-softmax ベースの decoding manager を使用。
- 知識処理器を文書の文と語に対する階層的アテンション機構で grounding。
- 事前学習:言語モデル/文脈エンコーダを Reddit データで; 知識エンコーダを Wikipedia で; 残りのコンポーネントを小規模なドメイン固有の grounding データで微調整。
- 最大尤度で訓練し、事前学習済みパラメータを固定して低リソース適応シナリオを模擬。
実験結果
リサーチクエスチョン
- RQ1知識 grounded 対話生成は、 grounded 訓練データが少数の場合に効果的に学習できるか?
- RQ2 disentangled デコーダは、プレ訓練に大量の非 grounding 対話とプレーンテキストを活用して低リソース grounding の性能を改善できるか?
- RQ3事前学習が異なるコンポーネントに与える影響は、ドメイン内知識対ドメイン外知識でどうなるか?
主な発見
| Models | Metrics | PPL | F1 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | Average | Extrema | Greedy |
|---|---|---|---|---|---|---|---|---|---|---|
| TMN (Dinan et al., 2019) | Test Seen | 66.5 | 15.9 | 0.184 | 0.073 | 0.033 | 0.017 | 0.844 | 0.427 | 0.658 |
| ITDD (Li et al., 2019) | Test Seen | 17.8 | 16.2 | 0.158 | 0.071 | 0.040 | 0.025 | 0.841 | 0.425 | 0.654 |
| FULL DATA | Test Seen | 23.0 | 18.0 | 0.218 | 0.115 | 0.075 | 0.055 | 0.835 | 0.434 | 0.658 |
| 1/2 DATA | Test Seen | 25.3 | 17.5 | 0.217 | 0.113 | 0.073 | 0.053 | 0.833 | 0.431 | 0.657 |
| 1/4 DATA | Test Seen | 29.2 | 16.9 | 0.212 | 0.105 | 0.064 | 0.044 | 0.833 | 0.429 | 0.658 |
| 1/8 DATA | Test Seen | 33.5 | 16.3 | 0.206 | 0.098 | 0.059 | 0.039 | 0.832 | 0.425 | 0.658 |
| TMN (Dinan et al., 2019) | Test Unseen | 103.6 | 14.3 | 0.168 | 0.057 | 0.022 | 0.009 | 0.839 | 0.408 | 0.645 |
| ITDD (Li et al., 2019) | Test Unseen | 44.8 | 11.4 | 0.134 | 0.047 | 0.021 | 0.011 | 0.826 | 0.364 | 0.624 |
| FULL DATA | Test Unseen | 25.6 | 16.5 | 0.207 | 0.101 | 0.062 | 0.043 | 0.828 | 0.422 | 0.628 |
| 1/2 DATA | Test Unseen | 27.7 | 16.7 | 0.208 | 0.103 | 0.064 | 0.045 | 0.827 | 0.421 | 0.647 |
| 1/4 DATA | Test Unseen | 32.4 | 16.2 | 0.205 | 0.098 | 0.060 | 0.041 | 0.828 | 0.423 | 0.650 |
| 1/8 DATA | Test Unseen | 35.8 | 16.0 | 0.201 | 0.093 | 0.054 | 0.035 | 0.831 | 0.419 | 0.653 |
| 1/16 DATA | Test Unseen | 41.0 | 15.3 | 0.191 | 0.087 | 0.050 | 0.032 | 0.832 | 0.424 | 0.652 |
| TMN (Dinan et al., 2019) | CMU DoG | 75.2 | 9.9 | 0.115 | 0.040 | 0.016 | 0.007 | 0.789 | 0.399 | 0.615 |
| ITDD (Li et al., 2019) | CMU DoG | 26.0 | 10.4 | 0.095 | 0.036 | 0.017 | 0.009 | 0.748 | 0.390 | 0.587 |
| FULL DATA | CMU DoG | 54.4 | 10.7 | 0.150 | 0.057 | 0.025 | 0.012 | 0.809 | 0.413 | 0.633 |
| 1/2 DATA | CMU DoG | 57.0 | 10.4 | 0.142 | 0.052 | 0.022 | 0.010 | 0.808 | 0.414 | 0.635 |
| 1/4 DATA | CMU DoG | 61.7 | 10.5 | 0.131 | 0.046 | 0.019 | 0.009 | 0.781 | 0.402 | 0.613 |
| 1/8 DATA | CMU DoG | 67.6 | 10.2 | 0.121 | 0.044 | 0.019 | 0.009 | 0.787 | 0.407 | 0.622 |
- 提案モデルは Wizard of Wikipedia および CMU DoG のベンチマークで、訓練データを1/8程度まで減らしても最先端の性能を達成。
- Wizard では、トレーニングデータをはるかに少なくしても、ドメイン外文書で baselines を著しく上回り、ドメイン内でも競争力を維持。
- 本モデルはドメイン外知識への強い一般化を示し、訓練データが少なくなるにつれて堅牢な性能を維持。
- 低リソース grounding には大半のパラメータの事前学習が決定的であり、事前学習を除去すると特にドメイン外データで性能が低下。
- 事前学習済みパラメータを微調整するのはデータが豊富な場合には有効だが、非常に低リソース設定では害になることがあり、事前学習パラメータを固定し、少量のサブセットのみ適応することを支持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。