QUICK REVIEW

[논문 리뷰] EmpTransfo: A Multi-head Transformer Architecture for Creating Empathetic Dialog Systems

Rohola Zandie, Mohammad H. Mahoor|arXiv (Cornell University)|2020. 03. 05.

Topic Modeling참고 문헌 25인용 수 42

한 줄 요약

EmpTransfo는 다중 작업 학습을 통해 감정, 주제, 행동 맥스를 반영하는 다중 헤드 Transformer 대화 모델을 도입하여 공감적이고 일관된 응답을 생성하며 DailyDialog에서 Hit@1 및 perplexity에서 기준 모델을 능가합니다.

ABSTRACT

Understanding emotions and responding accordingly is one of the biggest challenges of dialog systems. This paper presents EmpTransfo, a multi-head Transformer architecture for creating an empathetic dialog system. EmpTransfo utilizes state-of-the-art pre-trained models (e.g., OpenAI-GPT) for language generation, though models with different sizes can be used. We show that utilizing the history of emotions and other metadata can improve the quality of generated conversations by the dialog system. Our experimental results using a challenging language corpus show that the proposed approach outperforms other models in terms of Hit@1 and PPL (Perplexity).

연구 동기 및 목표

적절한 감정을 가진 응답으로 공감적 대화 에이전트를 구축하려는 동기 부여.
명시적 맥락 신호(감정, 주제, 행동)가 응답 품질에 어떤 영향을 미치는지 조사.
다양한 사전 학습 언어 모델과 호환되는 확장 가능한 아키텍처 개발.
다중 작업 학습이 공감적 품질과 생성 성능 모두를 향상시킨다는 것을 보여줌.

제안 방법

다중 예측 헤드가 있는 12층 디코더로 다음 감정, 다음 발화, 다음 토큰을 예측하는 EmpTransfo를 제안.
OpenAI GPT 사전 학습 가중치를 사용하고 DailyDialog에서 감정, 행동, 주제 임베딩으로 미세 조정.
L_total = c1 L1 + c2 L2 + c3 L3 이며 각 L은 언어 모델링, 다음 발화 예측, 다음 감정 예측에 대응.
입력을 토큰, 감정, 행동 임베딩과 주제 임베딩을 연결해 모델 입력을 형성.
해석에서 크리에이티브성과 신뢰성의 균형을 맞추기 위해 핵심(nucleus) 샘플링(top-p) 사용(p=0.9, T=0.7).
일 DailyDialog 평가 세트에서 Hit@1, perplexity(PPL), F1, BLEU로 평가.

실험 결과

연구 질문

RQ1감정, 주제 및 행동 맥스를 포함하면 공감적 응답 생성에 어떤 영향을 미치는가?
RQ2보조 작업이 있는 다중 헤드 Transformer가 응답 품질과 감정 예측 정확도 모두를 향상시킬 수 있는가?
RQ3EmpTransfo 아키텍처가 서로 다른 사전 학습 언어 모델 크기에 robust한가?
RQ4맥락 특성(주제/행동)을 추가하는 것이 자동 평가 지표에 어떤 영향을 미치는가?

주요 결과

모델	Hit@1 상승	PPL 하강	F1 상승	BLEU 상승
Seq2Seq+Attention	9.41	129.3	10.22	5.58
Transformer ranker	17.20	-	26.37	15.79
OpenAI GPT without emotion	75.01	10.19	18.2	3.755
EmpTransfo	77.25	10.63	19.39	3.99
EmpTransfo + topic	76.87	10.23	18.37	4.51
EmpTransfo + action	77.73	9.17	18.86	3.71
EmpTransfo + action + topic	78.47	9.04	17.27	2.45

EmpTransfo 및 맥락 보강 변형이 Hit@1과 PPL에서 기준선을 능가한다.
주제 및 행동 맥스를 추가하면 기본 EmpTransfo보다 Hit@1이 더 높고 PPL이 더 낮다.
감정, 행동 및 주제 특징이 포함된 EmpTransfo가 테스트 구성 중 Hit@1(78.47) 및 PPL(9.04)에서 가장 큰 전반적 이득을 얻었다.
감정 없이도 OpenAI GPT가 Hit@1에서 이미 강력하게 수행하지만(75.01), 다른 지표에서는 개선 여지가 있다.
다음 발화에 대한 감정 예측은 Precision 81.35, Recall 72.37, F1 76.59를 달성, 이전 기준치보다 우수.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.