QUICK REVIEW

[논문 리뷰] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation

Yizhe Zhang, Siqi Sun|arXiv (Cornell University)|2019. 11. 01.

Topic Modeling참고 문헌 28인용 수 103

한 줄 요약

DialoGPT는 GPT-2를 기반으로 한 대규모 오픈 도메인 대화 응답 생성 모델로, 147M Reddit 대화 교환을 학습하여 단일 턴 대화에서 거의 인간 수준의 성능을 달성하고 연구를 위해 사전학습 모델과 학습 파이프라인을 공개합니다.

ABSTRACT

We present a large, tunable neural conversational response generation model, DialoGPT (dialogue generative pre-trained transformer). Trained on 147M conversation-like exchanges extracted from Reddit comment chains over a period spanning from 2005 through 2017, DialoGPT extends the Hugging Face PyTorch transformer to attain a performance close to human both in terms of automatic and human evaluation in single-turn dialogue settings. We show that conversational systems that leverage DialoGPT generate more relevant, contentful and context-consistent responses than strong baseline systems. The pre-trained model and training pipeline are publicly released to facilitate research into neural response generation and the development of more intelligent open-domain dialogue systems.

연구 동기 및 목표

대형 사전학습 트랜스포머 모델로 오픈 도메인 대화 생성을 자극한다.
대규모 대화 데이터에서의 대화 특화 사전학습이 응답 품질을 향상시킨다.
DSTC-7 및 다중 참조 Reddit 데이터셋에서 자동 및 인간 평가 성능의 최첨단을 보여준다.
추가 연구를 촉진하기 위해 오픈 소스 학습 파이프라인과 사전학습 모델을 제공한다.

제안 방법

대화 턴을 하나의 긴 텍스트로 연결하고 조건 확률 P(T|S)를 최대화하여 다-turn 대화를 모델링하기 위해 GPT-2 아키텍처를 확장한다.
147M Reddit 대화에서 50,257 어휘의 바이트 페어 인코딩으로 세 가지 모델 사이즈(117M, 345M, 762M 파라미터)를 학습한다.
정보성을 선호하고 단조로운 응답을 피하기 위해 역방향 모델을 사용한 최대 상호 정보(MMI) 재정렬 단계를 적용한다.
다양성 및 품질을 평가하기 위해 top-K 샘플링 및 빔 서치 등 생성 설정을 실험한다.
DSTC-7 및 6K Reddit 다중 참조 테스트 세트에서 자동 지표(NIST, BLEU, METEOR, Entropy, Dist)와 인간 평가를 사용해 평가한다.

실험 결과

연구 질문

RQ1대규모 대화 데이터로 학습된 GPT-2 기반 모델이 베이스라인보다 더 관련성 있고 내용이 풍부하며 맥락에 일치하는 오픈 도메인 응답을 생성할 수 있는가?
RQ2더 큰 모델 크기와 디코딩 전략(빔 서치)이 오픈 도메인 대화 생성에서 자동 평가 및 인간 평가 점수를 향상시키는가?
RQ3상호 정보 기반 역방향 모델 재정렬이 관련성 손실 없이 다양성 및 정보성을 향상시키는가?
RQ4GPT-2 사전학습에서 파인 튜닝하는 것이 Reddit 데이터에서 대화 생성을 위해 처음부터 학습하는 것과 비교해 어떤 차이가 있는가?

주요 결과

빔 서치를 가진 DialoGPT-345M이 6K Reddit 다중 참조 테스트 세트에서 대부분의 자동 점수에서 최고를 달성했다.
더 큰 모델들(345M 및 762M)이 117M 변형보다 자동 지표와 인간 평가에서 우수하다.
빔 서치는 BLEU 및 Dist-n 지표를 크게 향상시키고 NIST 및 METEOR의 이익은 미미했다.
MMI 재정렬은 다양성과 정보 콘텐츠를 증가시키며(NIST, METEOR, Entropy, Dist가 높아짐) BLEU가 약간 하락했다.
인간 평가에서 DialoGPT 변형들이 생산형 기반라인(PersonalityChat)보다 강한 선호도를 보였고, 일부 경우에서 MMI 변형들이 특정 지표에서 인간 선호도에 근접하거나 초과하는 경우가 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.