Skip to main content
QUICK REVIEW

[論文レビュー] FaithDial: A Faithful Benchmark for Information-Seeking Dialogue

Nouha Dziri, Ehsan Kamalloo|arXiv (Cornell University)|Apr 22, 2022
Topic Modeling被引用数 25
ひとこと要約

FaithDial は、幻覚が多い Wizard of Wikipedia のターンを編集することにより忠実な情報探索対話のベンチマークを作成し、幻覚批評家(hallucination critics)の訓練とより忠実な対話の生成を可能にし、ゼロショット転移の利点と人間の評価の肯定を提供します。

ABSTRACT

The goal of information-seeking dialogue is to respond to seeker queries with natural language utterances that are grounded on knowledge sources. However, dialogue systems often produce unsupported utterances, a phenomenon known as hallucination. To mitigate this behavior, we adopt a data-centric solution and create FaithDial, a new benchmark for hallucination-free dialogues, by editing hallucinated responses in the Wizard of Wikipedia (WoW) benchmark. We observe that FaithDial is more faithful than WoW while also maintaining engaging conversations. We show that FaithDial can serve as training signal for: i) a hallucination critic, which discriminates whether an utterance is faithful or not, and boosts the performance by 12.8 F1 score on the BEGIN benchmark compared to existing datasets for dialogue coherence; ii) high-quality dialogue generation. We benchmark a series of state-of-the-art models and propose an auxiliary contrastive objective that achieves the highest level of faithfulness and abstractiveness based on several automated metrics. Further, we find that the benefits of FaithDial generalize to zero-shot transfer on other datasets, such as CMU-Dog and TopicalChat. Finally, human evaluation reveals that responses generated by models trained on FaithDial are perceived as more interpretable, cooperative, and engaging.

研究の動機と目的

  • トレーニングデータの幻覚を減らすことにより、信頼性が高く知識に基づく対話を促進する。
  • 既存の WoW 発話を Wikipedia の断片に照らして編集することで、スケーラブルで忠実なアノテーション作業フローを作成する。
  • 幻覚批評家を訓練し、忠実な対話生成を改善するためのデータを提供する。
  • FaithDial の利点が他のデータセットへのゼロショット転移へ一般化するかを検討する。
  • 人間評価を通じて忠実さとエンゲージメントの効果を検証する。

提案手法

  • Wizard of Wikipedia の幻覚的なターンを、対応する知識源に忠実になるよう編集する。
  • 知識スニペット上の意味的帰結の基づく忠実性を形式的に定義する。
  • 幻覚と編集の必要性をラベル付けするための品質管理を備えたクラウドソーシングによるアノテーション。
  • FaithDial由来データを用いて幻覚批評家(FaithCritic)を訓練し、転移能力を評価する。
  • 一連のモデル(GPT2、DialoGPT、T5、DoHA、CTRL、InfoNCE)と補助損失を用いて忠実性を向上させる実験。
  • 訓練中に忠実な応答と幻覚的応答を区別するためにInfoNCE対照学習を用いる。

実験結果

リサーチクエスチョン

  • RQ1FaithDial は WoW と比較して知識に基づく対話生成における幻覚を削減できるか?
  • RQ2FaithDial で訓練されたモデルは忠実性と抽象化度(抽象性)指標でどの程度の性能を示すか?
  • RQ3忠実性の利得は他のデータセット(例:CMU-DoG、TopicalChat)におけるゼロショット設定へ転移するか?
  • RQ4FaithDial で訓練された FaithCritic は他の NLU タスクやベンチマークへ転移できるか?
  • RQ5FaithDial ベースの訓練が人間が感じる協調性、解釈可能性、エンゲージメントに対する影響はどの程度か?

主な発見

  • FaithDial は約 50K のターンを 5.5K の会話にまたがって含み、人間の検証で忠実な発話が 94.4%、幻覚が 5.6% のみである。
  • FaithCritic(FaithDial に由来)の訓練で得られる幻覚批評家は、ゼロショット設定で DNLI や DECODE などのベースラインより MNLI および BEGIN への転移がより良い。
  • FaithDial で訓練したモデルは、WoW のみと比べて幻覚を大幅に減少させ、忠実性指標(例:Q2-NLI)を改善する。ハイブリッドな FaithDial/WoW 設定はさらに利益をもたらす。
  • FaithDial で訓練されたモデルは CMU-DoG と TopicalChat へのゼロショット転移にも generalize する。
  • 人間評価では FaithDial で訓練された応答が WoW で訓練されたものより解釈性・協調性・エンゲージメントが高いことを示している。
  • FaithDial は WoW と比較して知識の抽象的利用を促進する(密度は低いがカバー範囲は同等)。忠実性を保ちつつ対話品質を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。