Skip to main content
QUICK REVIEW

[논문 리뷰] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation

Yizhe Zhang, Siqi Sun|arXiv (Cornell University)|2019. 11. 01.
Topic Modeling참고 문헌 28인용 수 103
한 줄 요약

DialoGPT는 GPT-2를 기반으로 한 대규모 오픈 도메인 대화 응답 생성 모델로, 147M Reddit 대화 교환을 학습하여 단일 턴 대화에서 거의 인간 수준의 성능을 달성하고 연구를 위해 사전학습 모델과 학습 파이프라인을 공개합니다.

ABSTRACT

We present a large, tunable neural conversational response generation model, DialoGPT (dialogue generative pre-trained transformer). Trained on 147M conversation-like exchanges extracted from Reddit comment chains over a period spanning from 2005 through 2017, DialoGPT extends the Hugging Face PyTorch transformer to attain a performance close to human both in terms of automatic and human evaluation in single-turn dialogue settings. We show that conversational systems that leverage DialoGPT generate more relevant, contentful and context-consistent responses than strong baseline systems. The pre-trained model and training pipeline are publicly released to facilitate research into neural response generation and the development of more intelligent open-domain dialogue systems.

연구 동기 및 목표

  • 대형 사전학습 트랜스포머 모델로 오픈 도메인 대화 생성을 자극한다.
  • 대규모 대화 데이터에서의 대화 특화 사전학습이 응답 품질을 향상시킨다.
  • DSTC-7 및 다중 참조 Reddit 데이터셋에서 자동 및 인간 평가 성능의 최첨단을 보여준다.
  • 추가 연구를 촉진하기 위해 오픈 소스 학습 파이프라인과 사전학습 모델을 제공한다.

제안 방법

  • 대화 턴을 하나의 긴 텍스트로 연결하고 조건 확률 P(T|S)를 최대화하여 다-turn 대화를 모델링하기 위해 GPT-2 아키텍처를 확장한다.
  • 147M Reddit 대화에서 50,257 어휘의 바이트 페어 인코딩으로 세 가지 모델 사이즈(117M, 345M, 762M 파라미터)를 학습한다.
  • 정보성을 선호하고 단조로운 응답을 피하기 위해 역방향 모델을 사용한 최대 상호 정보(MMI) 재정렬 단계를 적용한다.
  • 다양성 및 품질을 평가하기 위해 top-K 샘플링 및 빔 서치 등 생성 설정을 실험한다.
  • DSTC-7 및 6K Reddit 다중 참조 테스트 세트에서 자동 지표(NIST, BLEU, METEOR, Entropy, Dist)와 인간 평가를 사용해 평가한다.

실험 결과

연구 질문

  • RQ1대규모 대화 데이터로 학습된 GPT-2 기반 모델이 베이스라인보다 더 관련성 있고 내용이 풍부하며 맥락에 일치하는 오픈 도메인 응답을 생성할 수 있는가?
  • RQ2더 큰 모델 크기와 디코딩 전략(빔 서치)이 오픈 도메인 대화 생성에서 자동 평가 및 인간 평가 점수를 향상시키는가?
  • RQ3상호 정보 기반 역방향 모델 재정렬이 관련성 손실 없이 다양성 및 정보성을 향상시키는가?
  • RQ4GPT-2 사전학습에서 파인 튜닝하는 것이 Reddit 데이터에서 대화 생성을 위해 처음부터 학습하는 것과 비교해 어떤 차이가 있는가?

주요 결과

  • 빔 서치를 가진 DialoGPT-345M이 6K Reddit 다중 참조 테스트 세트에서 대부분의 자동 점수에서 최고를 달성했다.
  • 더 큰 모델들(345M 및 762M)이 117M 변형보다 자동 지표와 인간 평가에서 우수하다.
  • 빔 서치는 BLEU 및 Dist-n 지표를 크게 향상시키고 NIST 및 METEOR의 이익은 미미했다.
  • MMI 재정렬은 다양성과 정보 콘텐츠를 증가시키며(NIST, METEOR, Entropy, Dist가 높아짐) BLEU가 약간 하락했다.
  • 인간 평가에서 DialoGPT 변형들이 생산형 기반라인(PersonalityChat)보다 강한 선호도를 보였고, 일부 경우에서 MMI 변형들이 특정 지표에서 인간 선호도에 근접하거나 초과하는 경우가 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.