QUICK REVIEW

[논문 리뷰] Towards a Human-like Open-Domain Chatbot

Daniel Adiwardana|arXiv (Cornell University)|2020. 01. 27.

Topic Modeling참고 문헌 56인용 수 267

한 줄 요약

Meena는 2.6B 매개변수의 엔드투엔드 오픈도메인 챗봇으로 공개 대화에서 얻은 40B 단어로 훈련되었고, SSA 평가 지표를 도입하며 퍼플렉시티와 인간 유사 행동 간의 강한 상관관계를 보인다.

ABSTRACT

We present Meena, a multi-turn open-domain chatbot trained end-to-end on data mined and filtered from public domain social media conversations. This 2.6B parameter neural network is simply trained to minimize perplexity of the next token. We also propose a human evaluation metric called Sensibleness and Specificity Average (SSA), which captures key elements of a human-like multi-turn conversation. Our experiments show strong correlation between perplexity and SSA. The fact that the best perplexity end-to-end trained Meena scores high on SSA (72% on multi-turn evaluation) suggests that a human-level SSA of 86% is potentially within reach if we can better optimize perplexity. Additionally, the full version of Meena (with a filtering mechanism and tuned decoding) scores 79% SSA, 23% higher in absolute SSA than the existing chatbots we evaluated.

연구 동기 및 목표

다중 턴 대화에서 인간과 유사한 합리성과 구체성을 달성하도록 오픈 도메인 챗봇을 고무한다.
챗봇을 평가하기 위한 간단하고 확장 가능한 인간 평가 SSA 지표를 제안한다.
대규모 엔드투엔드 모델에서 낮은 퍼플렉시티가 더 높은 SSA와 상관관계가 있음을 보여준다.
전체적으로 튜닝된 디코딩/필터 버전이 기존 챗봇보다 더 높은 SSA를 달성함을 보여준다.
대규모 엔드투엔드 챗봇을 위한 실용적인 학습 및 디코딩 설정을 제공한다.

제안 방법

40B 단어의 필터링된 공개 소셜 미디어 대화를 활용해 Evolution된 Transformer 아키텍처로 seq2seq 모델을 학습한다.
입력에 최대 7턴의 컨텍스트 윈도우를 두고 다음 응답을 예측한다.
341GB 데이터 세트를 위해 SentencePiece로 8K BPE 서브워드로 텍스트를 표현한다.
TPU-v3 파드에서 Adafactor로 30일 동안 최적화하며 약 10T 토큰을 관찰한다.
sample-and-rank로 디코딩: 온도 T에서 N개의 후보를 샘플링하고 가장 높은 확률의 후보를 선택한다.
정적 및 대화형 인간 평가를 통한 SSA 지표(Sensibleness and Specificity Average)로 평가한다.

실험 결과

연구 질문

RQ1대규모 엔드투엔드 신경망 모델이 낮은 퍼플렉시티로 인간과 같은 다중 턴 오픈 도메인 대화를 달성할 수 있는가?
RQ2단순한 퍼플렉시티 기반 목표가 인간의 합리성과 구체성 판단과 상관관계가 있는가?
RQ3샘플링-랭크 전략으로 디코딩하면 규모에 관계없이 다양하지만 고품질의 응답을 얻을 수 있는가?
RQ4Meena가 SSA 및 다른 지표에서 기존 챗봇(Cleverbot, Mitsuku, XiaoIce, DialoGPT)와 어떻게 비교되는가?

주요 결과

Meena는 테스트 퍼플렉시티 10.2를 달성하고 best end-to-end 모델에서 72% SSA, 필터링/디코딩 업그레이드로 79% SSA를 달성한다.
SSA는 퍼플렉시티와 강한 상관관계를 보이며(정적 SSA R2≈0.94, 대화형 SSA도 유사하게 높음).
인간 상한 SSA는 약 86%이며 Meena는 인간과 유사한 성능에 근접하지만 인간 수준에는 미치지 못한다.
필터링/디코딩이 적용된 전체 Meena는 79% SSA를 기록하며, 평가된 기존 챗봇들보다 절대 SSA에서 23% 포인트 높다.
퍼플렉시티 기반 최적화가 오픈 도메인 작업에서 합리성과 구체성 측면에서 핸드크래프트형 다요소 챗봇보다 우수한 성능을 보일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.