Skip to main content
QUICK REVIEW

[論文レビュー] The JDDC Corpus: A Large-Scale Multi-Turn Chinese Dialogue Dataset for E-commerce Customer Service

Meng Chen, Ruixue Liu|arXiv (Cornell University)|Nov 22, 2019
Topic Modeling参考文献 30被引用数 34
ひとこと要約

本論文は JDDC を紹介します。1 million を超えるマルチターンダイアログと 20 million の発話を含む、大規模な実世界の中国語eコマース対話コーパスであり、追加の注釈とチャレンジセットを備え、回収型(retrieval-based)および生成モデルのベースラインを提供します。

ABSTRACT

Human conversations are complicated and building a human-like dialogue agent is an extremely challenging task. With the rapid development of deep learning techniques, data-driven models become more and more prevalent which need a huge amount of real conversation data. In this paper, we construct a large-scale real scenario Chinese E-commerce conversation corpus, JDDC, with more than 1 million multi-turn dialogues, 20 million utterances, and 150 million words. The dataset reflects several characteristics of human-human conversations, e.g., goal-driven, and long-term dependency among the context. It also covers various dialogue types including task-oriented, chitchat and question-answering. Extra intent information and three well-annotated challenge sets are also provided. Then, we evaluate several retrieval-based and generative models to provide basic benchmark performance on the JDDC corpus. And we hope JDDC can serve as an effective testbed and benefit the development of fundamental research in dialogue task

研究の動機と目的

  • 大規模な実世界シナリオの中国語eコマース会話コーパス(JDDC)を構築する。
  • 目標志向の相互作用や長期的な文脈依存など、人間対人間の対話の特徴を捉える。
  • タスク指向、雑談、質問応答を含む多様な対話タイプを網羅する。
  • 追加の意図情報を提供し、堅牢な評価のための3つのよく注釈されたチャレンジセットを用意する。

提案手法

  • 1 million 超のマルチターンダイアログ、20 million の発話、150 million の語を含む実世界シナリオの中国語eコマースコーパスを組み立てる。
  • 追加の意図情報を注釈付けし、堅牢な評価を促進するための3つのチャレンジセットを作成する。
  • JDDCコーパス上で、retrieval-based および generative モデルを用いたベースライン性能をベンチマークする。

実験結果

リサーチクエスチョン

  • RQ1retrieval-basedモデルはJDDCデータセットでどのようなベースライン性能を達成するか?
  • RQ2generativeモデルはJDDCデータセットでどのようなベースライン性能を達成するか?
  • RQ3JDDCは多ターン対話における目標駆動行動と長期的依存性をどの程度反映しているか?

主な発見

  • データセットには1 million を超えるマルチターンダイアログ、20 million の発話、150 million の語が含まれる。
  • JDDCは人間の会話の目標駆動と長期的依存性の特徴を反映している。
  • JDDCはタスク指向、雑談、質問応答を含む多様な対話タイプをサポートしている。
  • 分析とモデリングを支援する追加の意図情報が提供されている。
  • 評価シナリオを多様化するための3つのよく注釈されたチャレンジセットが提供されている。
  • JDDC上でretrieval-basedおよびgenerativeモデルのベースラインベンチマークが実施されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。