Skip to main content
QUICK REVIEW

[논문 리뷰] The JDDC Corpus: A Large-Scale Multi-Turn Chinese Dialogue Dataset for E-commerce Customer Service

Meng Chen, Ruixue Liu|arXiv (Cornell University)|2019. 11. 22.
Topic Modeling참고 문헌 30인용 수 34
한 줄 요약

본 논문은 JDDC를 소개한다. 대규모 실세계 중국어 전자상거래 대화 말뭉치로서 over 1 million multi-turn dialogues와 20 million utterances를 보유하며, 추가 주석 및 도전 세트를 포함하고 검색 기반 및 생성 모델의 벤치마크를 제공한다.

ABSTRACT

Human conversations are complicated and building a human-like dialogue agent is an extremely challenging task. With the rapid development of deep learning techniques, data-driven models become more and more prevalent which need a huge amount of real conversation data. In this paper, we construct a large-scale real scenario Chinese E-commerce conversation corpus, JDDC, with more than 1 million multi-turn dialogues, 20 million utterances, and 150 million words. The dataset reflects several characteristics of human-human conversations, e.g., goal-driven, and long-term dependency among the context. It also covers various dialogue types including task-oriented, chitchat and question-answering. Extra intent information and three well-annotated challenge sets are also provided. Then, we evaluate several retrieval-based and generative models to provide basic benchmark performance on the JDDC corpus. And we hope JDDC can serve as an effective testbed and benefit the development of fundamental research in dialogue task

연구 동기 및 목표

  • 대규모 실세계 중국어 전자상거래 대화 말뭉치(JDDC)를 구축한다.
  • 목표 주도적 상호작용 및 장기 맥락 의존성과 같은 인간-인간 대화의 특징을 포착한다.
  • 작업 지향 대화, 잡담, 질의응답을 포함한 다양한 대화 유형을 다룬다.
  • 추가 의도 정보와 세 가지 잘 주석된 도전 세트를 제공하여 견고한 평가를 가능하게 한다.

제안 방법

  • 실세계 상황의 중국어 전자상거래 말뭉치를 over 1 million multi-turn dialogues, 20 million utterances, and 150 million words를 포함하여 구성한다.
  • 추가 의도 정보를 주석화하고 견고한 평가를 촉진하기 위해 세 가지 도전 세트를 만든다.
  • JDDC 코퍼스에서 검색 기반 및 생성 모델의 기본 성능을 벤치마킹한다.

실험 결과

연구 질문

  • RQ1JDDC 데이터셋에서 검색 기반 모델은 어떤 기본 성능을 달성하는가?
  • RQ2JDDC 데이터셋에서 생성 모델은 어떤 기본 성능을 달성하는가?
  • RQ3JDDC가 다회 대화에서 목표 주도적 행동과 장기 의존성을 얼마나 잘 반영하는가?

주요 결과

  • 데이터셋은 1,000,000개 이상의 다회 대화, 20,000,000개의 발화, 150,000,000단어를 포함한다.
  • JDDC는 인간 대화의 목표 주도 및 장기 의존성 특성을 반영한다.
  • JDDC는 작업 지향, 잡담, 질의응답을 포함한 다양한 대화 유형을 지원한다.
  • 추가 의도 정보가 분석 및 모델링을 돕기 위해 제공된다.
  • 세 가지 잘 주석된 도전 세트가 제공되어 평가 시나리오의 다양화를 돕는다.
  • JDDC에 대한 검색 기반 및 생성 모델 모두의 벤치마크가 수행된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.