Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Select Knowledge for Response Generation in Dialog Systems

Rongzhong Lian, Min Xie|arXiv (Cornell University)|Feb 13, 2019
Topic Modeling参考文献 21被引用数 23
ひとこと要約

本論文では、知識の事前分布(発話のみ)と事後分布(発話および応答を含む)を同時に学習することで、対話システムにおける応答生成を向上させる、新しいエンドツーエンドのニューラルモデルを提案する。訓練中にこれらの分布間のKLダイバージェンスを最小化することで、推論時に正解応答が利用できない状況でも適切な知識選択が可能となり、Persona-ChatおよびWizard-of-Wikipediaの両データセットにおいて、自動評価および人的評価の両面でベースラインを著しく上回る結果を得た。

ABSTRACT

End-to-end neural models for intelligent dialogue systems suffer from the problem of generating uninformative responses. Various methods were proposed to generate more informative responses by leveraging external knowledge. However, few previous work has focused on selecting appropriate knowledge in the learning process. The inappropriate selection of knowledge could prohibit the model from learning to make full use of the knowledge. Motivated by this, we propose an end-to-end neural model which employs a novel knowledge selection mechanism where both prior and posterior distributions over knowledge are used to facilitate knowledge selection. Specifically, a posterior distribution over knowledge is inferred from both utterances and responses, and it ensures the appropriate selection of knowledge during the training process. Meanwhile, a prior distribution, which is inferred from utterances only, is used to approximate the posterior distribution so that appropriate knowledge can be selected even without responses during the inference process. Compared with the previous work, our model can better incorporate appropriate knowledge in response generation. Experiments on both automatic and human evaluation verify the superiority of our model over previous baselines.

研究の動機と目的

  • 外部知識を統合することで、従来のエンドツーエンド対話モデルが生成する情報の少ない応答という限界を是正すること。
  • 訓練中に応答のガイダンスが欠如するため、発話に基づく事前分布にのみ依存する状況における不適切な知識選択という課題を克服すること。
  • 事前分布と事後分布の乖離を是正することで、正解応答が入手不可な推論時においても正確な知識選択を可能にすること。
  • 真の応答で使用された知識の分布を明示的にモデル化することで、応答の関連性と情報量を向上させること。

提案手法

  • モデルは、訓練中に入力発話と正解応答の両方から知識の事後分布を推定する。
  • 発話のみから学習される知識の事前分布により、応答情報が欠如する推論時における知識選択が可能になる。
  • 事前分布と事後分布のKLダイバージェンスを最小化することで、事前分布が事後分布を適切に近似するようにし、効果的な知識選択を誘導する。
  • 知識選択は、事前分布からの微分可能なサンプリングにより実行され、その後、連結または要素ごとの畳み込みによって応答生成ネットワークと統合される。
  • フレームワークは、sequence-to-sequenceアーキテクチャに統合され、Persona-ChatおよびWizard-of-Wikipediaデータセットで評価された。
  • さらに、SOTAのTransformerベースモデルLICへの適用により、知識抽出メトリクスの向上が確認され、有効性が裏付けられた。

実験結果

リサーチクエスチョン

  • RQ1事前分布と事後分布の両方をモデル化することで、対話システムにおける知識選択が向上するか?
  • RQ2事前分布と事後分布の乖離が、知識選択および応答生成にどのように影響するか?
  • RQ3発話情報のみを用いて事後分布を近似するように訓練されたモデルが、推論時に効果的に一般化できるか?
  • RQ4事前分布と事後分布の共同学習が、より情報量が多く関連性の高い応答を生成するのに寄与するか?

主な発見

  • 提案モデルは、ベースライン手法と比較して、Persona-Chatデータセットにおける知識抽出F1スコアを3倍に改善した。
  • 人的評価では、本モデルが生成する応答が、ベースラインと比べて著しく情報量が多く文脈的に関連性が高いことが示された。
  • MemNet や LIC といった強力なベースラインと比較して、特に正しい知識の選択とその応答への意味的な統合において優れた性能を示した。
  • Wizard-of-Wikipediaデータセットでは、応答の整合性と知識に基づいた妥当性が向上し、関連性と多様性が向上した。
  • LIC Transformerモデルへの知識選択メカニズムの統合により、パープレキシティと知識抽出メトリクスの両面で顕著な向上が得られた。
  • アブレーションスタディの結果、事前分布と事後分布の両方の共同使用が不可欠であることが確認され、いずれかのコンponentを削除すると性能が低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。