[논문 리뷰] TransferTransfo: A Transfer Learning Approach for Neural Network Based Conversational Agents
TransferTransfo는 12-layer 디코더-전용 Transformer를 멀티태스크 학습(다음 발화 분류 + 언어 모델링)을 사용하여 persona-chat에서 미세조정하고 ConvAI2 지표에서 최첨단 성능을 달성한다.
We introduce a new approach to generative data-driven dialogue systems (e.g. chatbots) called TransferTransfo which is a combination of a Transfer learning based training scheme and a high-capacity Transformer model. Fine-tuning is performed by using a multi-task objective which combines several unsupervised prediction tasks. The resulting fine-tuned model shows strong improvements over the current state-of-the-art end-to-end conversational models like memory augmented seq2seq and information-retrieval models. On the privately held PERSONA-CHAT dataset of the Conversational Intelligence Challenge 2, this approach obtains a new state-of-the-art, with respective perplexity, Hits@1 and F1 metrics of 16.28 (45 % absolute improvement), 80.7 (46 % absolute improvement) and 19.5 (20 % absolute improvement).
연구 동기 및 목표
- 개방형 대화 시스템의 불일치, 장기 기억력 부족 및 일반적 응답 문제를 해결하여 개선을 촉진한다.
- 대규모 사전 학습된 언어 모델을 활용하여 생성 대화 성능을 향상시킨다.
- persona-조건 대화 데이터셋에서 다음 발화 예측과 언어 모델링을 함께 최적화하는 미세조정 스키마를 개발한다.
제안 방법
- 마스크된 자기 주의력을 가진 12-layer 디코더-전용 Transformer를 사용한다(768 은닉 차원, 12 헤드).
- Long-range 의존성을 포착하기 위해 문서 수준 시퀀스와 함께 BooksCorpus에서 사전 학습한다.
- 다음 발화 분류와 언어 모델링 손실을 결합한 멀티태스크 학습으로 미세조정한다.
- 입력 표현은 페르소나 문장을 대화 기록과 결합하고 페르소나/발화자 역할을 나타내는 대화 상태 임베딩을 추가한다.
- 훈련 중 페르소나 문장의 순서를 불변으로 만들기 위해 위치 임베딩을 재사용하고 필요시 페르소나 문장을 섞을 수 있다.
- 빔 탐색(빔 크기 4)와 샘플링을 결합하여 디코딩하고, 페르소나 문장에서의 복사를 피하기 위해 n-그램 필터링을 적용한다; 최종 랭킹은 발화 확률과 다음 발화 분류 점수를 결합한다.
실험 결과
연구 질문
- RQ1대형 언어 모델의 전이 학습이 개방 도메인 대화 에이전트의 품질을 향상시킬 수 있는가?
- RQ2멀티태스크 미세조정 설정(다음 발화 분류 + 언어 모델링)이 전통적인 기준선보다 페르소나-일관성 및 유창한 응답을 더 잘 제공하는가?
- RQ3TransferTransfo가 ConvAI2 persona-chat 데이터셋에서 엔드 투 엔드 seq2seq 및 메모리/검색 기반 기준선과 비교해 어떤 성능을 보이는가?
주요 결과
| Model | Eval PPL | Eval Hits@1 | Eval F1 | Test PPL | Test Hits@1 | Test F1 |
|---|---|---|---|---|---|---|
| Generative Profile Memory (Zhang et al., 2018) | 34.54 | 12.5 | – | – | – | – |
| Retrieval KV Profile Memory (Zhang et al., 2018) | – | 51.1 | – | – | 55.1 | 11.72 |
| Seq2Seq + Attention (ConvAI2 baseline) | 35.07 | 12.5 | 16.82 | 29.8 | 12.6 | 16.18 |
| Language Model (ConvAI2 baseline) | 51.1 | – | 15.31 | 46.0 | – | 15.02 |
| KV Profile Memory (ConvAI2 baseline) | – | 55.1 | 11.72 | – | 55.2 | 11.9 |
| TransferTransfo (this work) | 17.51 | 82.1 | 19.09 | 16.28 | 80.7 | 19.5 |
- TransferTransfo는 persona-chat 데이터셋에서 ConvAI2 기준선 대비 검증 및 비공개 테스트 세트 모두에서 상당한 개선을 달성한다.
- Perplexity (PPL)은 비공개 테스트 세트에서 절대 45% 포인트, 검증 세트에서 51.0% 포인트 개선되어 특정 기준선과 비교되었다(표에 정확한 수치 기재).
- Hits@1은 비공개 테스트 세트에서 절대 약 46% 포인트, 검증 세트에서 약 35% 포인트 개선된다.
- F1 점수는 비공개 테스트 세트에서 약 20% 포인트, 검증 세트에서 약 13% 포인트 개선된다.
- 모델은 eval에서 PPL 17.51, test에서 16.28을 달성하고, Hits@1은 82.1(eval) 및 80.7(test), F1은 19.09(eval) 및 19.5(test)이다.
- 미세조정은 네 개의 K80 GPU에서 약 10시간, 200,000 스텝이 소요되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.