QUICK REVIEW

[논문 리뷰] PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning

Siqi Bao, He Huang|arXiv (Cornell University)|2020. 06. 30.

Topic Modeling참고 문헌 38인용 수 27

한 줄 요약

PLATO-2는 대규모 오픈 도메인 챗봇을 훈련하기 위해 이중 단계 커리큘럼 러닝 프레임워크를 도입한다. 먼저 일반적인 응답 생성을 위한 굵은 해상도 모델을 사전 훈련하고, 이후 응답의 다양성과 일관성을 높이기 위해 잠재 변수와 평가 모델을 활용해 세밀한 해상도의 생성 모델을 미세조정한다. 이 방법은 영어 및 중국어 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하여 Meena 및 Blender와 같은 모델을 능가한다.

ABSTRACT

To build a high-quality open-domain chatbot, we introduce the effective training process of PLATO-2 via curriculum learning. There are two stages involved in the learning process. In the first stage, a coarse-grained generation model is trained to learn response generation under the simplified framework of one-to-one mapping. In the second stage, a fine-grained generative model augmented with latent variables and an evaluation model are further trained to generate diverse responses and to select the best response, respectively. PLATO-2 was trained on both Chinese and English data, whose effectiveness and superiority are verified through comprehensive evaluations, achieving new state-of-the-art results.

연구 동기 및 목표

PLATO 모델의 일대다 응답 생성 모델을 더 큰 파라미터로 확장할 때 발생하는 훈련 불안정성과 비효율성을 해결하기 위해.
잠재 변수를 통해 일대다 매핑을 명시적으로 모델링하여 오픈 도메인 대화에서 응답 품질을 향상시키기 위해.
양방향 일관성 추정을 위해 훈련된 별도의 평가 모델을 사용해 응답의 일관성과 다양성을 향상시키기 위해.
오픈 도메인 대화, 지식 기반 대화, 작업 중심 대화를 포함한 다양한 대화 작업으로의 효과적인 전이를 가능하게 하기 위해.
커리큘럼 러닝을 통해 대화형 AI를 위한 통합적이고 확장 가능한 사전 훈련 프레임워크를 개발하기 위해.

제안 방법

훈련은 두 단계로 진행된다: 첫 번째 단계에서는 일반적인 응답 패턴을 위한 단순화된 일대일 매핑 하에 굵은 해상도 생성 모델을 훈련시킨다.
두 번째 단계에서는 단일 문맥에 대해 다양한 응답을 모델링하기 위해 이산 잠재 변수를 활용해 세밀한 해상도의 생성 모델을 훈련시킨다.
대화 문맥과 후보 응답 간의 양방향 일관성을 추정하기 위해 평가 모델을 훈련시어 응답 선택을 가능하게 한다.
첫 번째 단계의 모델 파라미터를 두 번째 단계 모델의 가속화 초기화에 사용하여 안정적인 훈련 진행을 보장한다.
사전 정규화를 적용한 통합 트랜스포머 아키텍처는 탄력적인 어텐션을 통해 문맥 인코딩과 순차적 응답 생성을 모두 지원한다.
이 프레임워크는 영어 및 중국어 데이터셋에 적용되었으며, 연구 목적을 위해 GitHub에 모델이 공개되었다.

실험 결과

연구 질문

RQ1복잡한 일대다 응답 생성을 갖는 대규모 오픈 도메인 챗봇의 훈련을 효과적으로 안정화시키기 위해 커리큘럼 러닝이 유용한가?
RQ2먼저 굵은 해상도 모델을 사전 훈련하면 이후 잠재 변수를 활용한 세밀한 해상도 응답 생성의 품질과 안정성이 향상되는가?
RQ3일관성 추정을 위해 별도로 훈련된 평가 모델이 응답 선택 및 전체 대화 품질 향상에 상당한 기여를 하는가?
RQ4이중 단계의 PLATO-2 프레임워크는 오픈 도메인, 지식 기반, 작업 중심 대화를 포함한 다양한 대화 작업으로 얼마나 잘 일반화되는가?
RQ5커리큘럼 러닝 접근법을 통해 기존 최신 기술 수준(SOTA) 모델 대비 성능을 유지하거나 향상시키며 1.6B 파라미터로 모델을 확장할 수 있는가?

주요 결과

PLATO-2는 영어 및 중국어 오픈 도메인 대화 벤치마크에서 모두 최신 기술 수준(SOTA) 성능을 달성하여 Meena, Blender 및 기타 선도적 모델을 능가한다.
이중 단계 커리큘럼 러닝 접근법은 1.6B 파라미터 모델의 훈련을 성공적으로 가능하게 하여 기존 PLATO 모델의 직접 확장에서 발생하는 불안정성 문제를 해결했다.
DSTC9의 세 가지 과제(오픈 도메인 대화, 지식 기반 대화, 엔드 투 엔드 작업 중심 대화)에서 모두 1위를 차지했다.
세밀한 생성기와 평가 모델을 별도로 훈련시킴으로써 다중 작업 간 간섭을 줄여 응답의 다양성과 일관성 양면에서 성능 향상을 이뤘다.
포괄적인 인간 평가를 통해 PLATO-2는 이전 모델 대비 더 매력적이고 다양한, 맥락에 부합하는 응답을 생성하는 것으로 확인되었다.
이 프레임워크는 아키텍처의 대대적인 수정 없이도 다양한 대화 유형을 효과적으로 지원하는 강력한 전이 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.