Skip to main content
QUICK REVIEW

[論文レビュー] Beyond Goldfish Memory: Long-Term Open-Domain Conversation

Jing Xu, Arthur Szlam|arXiv (Cornell University)|Jul 15, 2021
Topic Modeling被引用数 40
ひとこと要約

この論文は Multi-Session Chat (MSC) を導入し、長期のオープンドメイン対話データセットを提示するとともに、取得拡張型と記憶ベースの要約モデルが長い文脈の会話で標準のエンコーダ–デコーダ変換器よりも優れていることを示し、自動評価と人間評価の両方が改善を裏付けます。

ABSTRACT

Despite recent improvements in open-domain dialogue models, state of the art models are trained and evaluated on short conversations with little context. In contrast, the long-term conversation setting has hardly been studied. In this work we collect and release a human-human dataset consisting of multiple chat sessions whereby the speaking partners learn about each other's interests and discuss the things they have learnt from past sessions. We show how existing models trained on existing datasets perform poorly in this long-term conversation setting in both automatic and human evaluations, and we study long-context models that can perform much better. In particular, we find retrieval-augmented methods and methods with an ability to summarize and recall previous conversations outperform the standard encoder-decoder architectures currently considered state of the art.

研究の動機と目的

  • 長期のオープンドメイン対話を短期セッションデータセットを超えて研究する動機づけ。
  • 過去の対話の要約を含む複数セッションを捉える公開データセット(MSC)を提供する。
  • 長文脈モデリングのアプローチを評価し、記憶と検索の効果的なアーキテクチャを特定する。
  • 長期対話研究の進展を促進する洞察とベースラインを提供する。

提案手法

  • 対話ごとに5セッションを持つ Multi-Session Chat (MSC) データセットを導入し、パートナーが互いを学習し過去のセッションを参照する。
  • 長い文脈ウィンドウを持つエンコーダ–デコーダー Transformers を、取得拡張法(RAG, FiD, FiD-RAG)およびその場で要約を行う読み書き memory モデルと比較する。
  • 長期記憶に要約された知識を格納し生成時にそれを参照する記憶拡張生成フレームワーク(SumMem-MSC)を提案する。
  • MSC 上でモデルを訓練・評価し、異なる文脈長やゴールドまたは予測要約のバリエーションを含める。
  • 人間評価を実施し、エンゲージメントと過去セッションへの参照 groundedness を評価する。

実験結果

リサーチクエスチョン

  • RQ1長期の文脈を持つオープンドメイン対話を、過去の相互作用を参照する複数セッションデータで効果的にモデル化できるか。
  • RQ2取得拡張型および記憶拡張型モデルは、長期文脈下で標準のエンコーダ–デコーダ変換器より優れているか。
  • RQ3生成品質とエンゲージメントに対するセッション要約の使用(生の対話履歴ではなく) の影響はどうか。
  • RQ4文脈長と要約の有無が、長期対話におけるモデル性能にどう影響するか。

主な発見

  • 取得拡張式と要約ベースの記憶モデルは、MSC において自動評価指標と人間判断の両方で、標準のエンコーダ–デコーダベースラインを上回る。
  • SumMem-MSC 2.7B(FiD-RAG)は人間のエンゲージメントと最終評価で強力な成果を示し、例としてエンゲージングな応答が 62.1%、最終評価が 3.65 となった。
  • MSC で訓練されたモデルは人間評価のエンゲージメントと最終スコアで BlenderBot (BST 2.7B) を上回る。
  • セッションレベルの要約を文脈として使用すると対話履歴より改善が得られ、ゴールド要約は予測要約と同等以上の強い改善を提供する。
  • より大きい文脈長(512–1024 トークン)は、過去のセッションや要約が用いられる場合、概ねパープレキシティとエンゲージメントを向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。