QUICK REVIEW

[논문 리뷰] TransferTransfo: A Transfer Learning Approach for Neural Network Based Conversational Agents

Thomas Wolf, Victor Sanh|arXiv (Cornell University)|2019. 01. 23.

Topic Modeling참고 문헌 18인용 수 282

한 줄 요약

TransferTransfo는 12-layer 디코더-전용 Transformer를 멀티태스크 학습(다음 발화 분류 + 언어 모델링)을 사용하여 persona-chat에서 미세조정하고 ConvAI2 지표에서 최첨단 성능을 달성한다.

ABSTRACT

We introduce a new approach to generative data-driven dialogue systems (e.g. chatbots) called TransferTransfo which is a combination of a Transfer learning based training scheme and a high-capacity Transformer model. Fine-tuning is performed by using a multi-task objective which combines several unsupervised prediction tasks. The resulting fine-tuned model shows strong improvements over the current state-of-the-art end-to-end conversational models like memory augmented seq2seq and information-retrieval models. On the privately held PERSONA-CHAT dataset of the Conversational Intelligence Challenge 2, this approach obtains a new state-of-the-art, with respective perplexity, Hits@1 and F1 metrics of 16.28 (45 % absolute improvement), 80.7 (46 % absolute improvement) and 19.5 (20 % absolute improvement).

연구 동기 및 목표

개방형 대화 시스템의 불일치, 장기 기억력 부족 및 일반적 응답 문제를 해결하여 개선을 촉진한다.
대규모 사전 학습된 언어 모델을 활용하여 생성 대화 성능을 향상시킨다.
persona-조건 대화 데이터셋에서 다음 발화 예측과 언어 모델링을 함께 최적화하는 미세조정 스키마를 개발한다.

제안 방법

마스크된 자기 주의력을 가진 12-layer 디코더-전용 Transformer를 사용한다(768 은닉 차원, 12 헤드).
Long-range 의존성을 포착하기 위해 문서 수준 시퀀스와 함께 BooksCorpus에서 사전 학습한다.
다음 발화 분류와 언어 모델링 손실을 결합한 멀티태스크 학습으로 미세조정한다.
입력 표현은 페르소나 문장을 대화 기록과 결합하고 페르소나/발화자 역할을 나타내는 대화 상태 임베딩을 추가한다.
훈련 중 페르소나 문장의 순서를 불변으로 만들기 위해 위치 임베딩을 재사용하고 필요시 페르소나 문장을 섞을 수 있다.
빔 탐색(빔 크기 4)와 샘플링을 결합하여 디코딩하고, 페르소나 문장에서의 복사를 피하기 위해 n-그램 필터링을 적용한다; 최종 랭킹은 발화 확률과 다음 발화 분류 점수를 결합한다.

실험 결과

연구 질문

RQ1대형 언어 모델의 전이 학습이 개방 도메인 대화 에이전트의 품질을 향상시킬 수 있는가?
RQ2멀티태스크 미세조정 설정(다음 발화 분류 + 언어 모델링)이 전통적인 기준선보다 페르소나-일관성 및 유창한 응답을 더 잘 제공하는가?
RQ3TransferTransfo가 ConvAI2 persona-chat 데이터셋에서 엔드 투 엔드 seq2seq 및 메모리/검색 기반 기준선과 비교해 어떤 성능을 보이는가?

주요 결과

Model	Eval PPL	Eval Hits@1	Eval F1	Test PPL	Test Hits@1	Test F1
Generative Profile Memory (Zhang et al., 2018)	34.54	12.5	–	–	–	–
Retrieval KV Profile Memory (Zhang et al., 2018)	–	51.1	–	–	55.1	11.72
Seq2Seq + Attention (ConvAI2 baseline)	35.07	12.5	16.82	29.8	12.6	16.18
Language Model (ConvAI2 baseline)	51.1	–	15.31	46.0	–	15.02
KV Profile Memory (ConvAI2 baseline)	–	55.1	11.72	–	55.2	11.9
TransferTransfo (this work)	17.51	82.1	19.09	16.28	80.7	19.5

TransferTransfo는 persona-chat 데이터셋에서 ConvAI2 기준선 대비 검증 및 비공개 테스트 세트 모두에서 상당한 개선을 달성한다.
Perplexity (PPL)은 비공개 테스트 세트에서 절대 45% 포인트, 검증 세트에서 51.0% 포인트 개선되어 특정 기준선과 비교되었다(표에 정확한 수치 기재).
Hits@1은 비공개 테스트 세트에서 절대 약 46% 포인트, 검증 세트에서 약 35% 포인트 개선된다.
F1 점수는 비공개 테스트 세트에서 약 20% 포인트, 검증 세트에서 약 13% 포인트 개선된다.
모델은 eval에서 PPL 17.51, test에서 16.28을 달성하고, Hits@1은 82.1(eval) 및 80.7(test), F1은 19.09(eval) 및 19.5(test)이다.
미세조정은 네 개의 K80 GPU에서 약 10시간, 200,000 스텝이 소요되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.