Skip to main content
QUICK REVIEW

[論文レビュー] Training Neural Response Selection for Task-Oriented Dialogue Systems

Matthew Henderson, Ivan Vulić|arXiv (Cornell University)|Jun 4, 2019
Topic Modeling参考文献 70被引用数 55
ひとこと要約

大規模な Reddit データでニューラル応答選択モデルを事前学習し、その後6つのターゲットとなるタスク指向対話ドメインへファインチューニングすることで、低データ環境での効果的な適応を実現します。

ABSTRACT

Despite their popularity in the chatbot literature, retrieval-based models have had modest impact on task-oriented dialogue systems, with the main obstacle to their application being the low-data regime of most task-oriented dialogue tasks. Inspired by the recent success of pretraining in language modelling, we propose an effective method for deploying response selection in task-oriented dialogue. To train response selection models for task-oriented dialogue tasks, we propose a novel method which: 1) pretrains the response selection model on large general-domain conversational corpora; and then 2) fine-tunes the pretrained model for the target dialogue domain, relying only on the small in-domain dataset to capture the nuances of the given dialogue domain. Our evaluation on six diverse application domains, ranging from e-commerce to banking, demonstrates the effectiveness of the proposed training method.

研究の動機と目的

  • タスク指向対話において、タスク特有のオントロジーやポリシーを構築する有効な代替として応答選択を動機づける。
  • ターゲットドメインにおけるデータ不足を克服するための、軽量な二段階トレーニング手順を開発する。
  • 多様なドメインにわたる事前学習済み応答選択の評価を行い、汎用性と適応上の利点を評価する。
  • 事前学習後の性能を最大化するエンコーダアーキテクチャとファインチューニング戦略を特定する。

提案手法

  • 大規模な一般ドメインの Reddit データセット上で、トランスフォーマー風の入力–応答エンコーダとスケール済みコサイン類似度スコアリングを用いて応答選択エンコーダを事前学習する。
  • 入力と応答を、自己注意機構と射影層を通じて処理された unigram/bigram 特徴に基づく320次元の埋め込みとして表現し、最終的に512次元の表現を得る。
  • バッチベースの最大マージン目的関数で、真の入力–応答ペアをバッチ内ネガティブと対比させて学習し、効率的な検索と近似的 NN 検索の可能性を可能にする。
  • 事前学習モデルを6つのドメイン内データセット(OpenSubtitles のようなオープンドメインや銀行業のようなドメイン固有データなど)で微調整する。2つの戦略を使用する: ft-direct(ドメイン内データのみで训练を継続)と ft-mixed(ドメイン内データと Reddit データをバッチ内で混合して一般ドメインの知識を保持)。
  • ターゲットのみのトレーニング、従来の情報検索手法(tf-idf、BM25)、およびそのまま使用できる事前学習済みエンコーダ(use、elmo、bert系)の比較を行い、二段階アプローチの価値を評価する。

実験結果

リサーチクエスチョン

  • RQ1Q1: 応答選択のための Reddit データを最もよくモデル化するエンコーダアーキテクチャと事前学習設定はどれか?
  • RQ2Q2: 事前学習済みの一般ドメイン応答選択モデルを、どのようにして多様なターゲット対話ドメインに効率的に適応させることができるか?
  • RQ3Q3: 軽量なファインチューニング戦略(ft-direct vs ft-mixed)は、事前学習モデルの直接適用およびターゲットのみのトレーニングを上回るか?
  • RQ4Q4: 事前学習+ファインチューニングのアプローチは、複数のドメインにおいて強力なベクトルベースのベースラインや標準的なIRベースラインとどのように比較されるか?

主な発見

  • 大規模な Reddit コーパスでの事前学習は、複数のベースラインに対して優れた入力–応答エンコードを生み出し、トランスフォーマー風のアーキテクチャと自己注意機構が変化をもたらす。
  • ドメイン内データでのファインチューニングは、6つのターゲットドメインすべてで性能を大幅に向上させ、データが不足している場合には特に効果的である。
  • 2つのファインチューニング戦略(ft-directとft-mixed)は、直接の Reddit 適用およびターゲットのみのトレーニングを上回り、ft-directはドメイン内データが豊富な場合に強い効果を、ft-mixedは一般ドメインの能力を維持するのに役立つ。
  • 二段階アプローチは、従来のIRベースライン(tf-idf、BM25)および市販の事前学習済みエンコーダを一貫して上回り、応答選択のタスク固有の適応の重要性を強調している。
  • ft-mixed は Reddit の性能を保持しつつ、ドメイン内タスクへ適応することで、ドメイン内データが増えると一般ドメイン Reddit のテストデータに対する劣化を抑える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。