QUICK REVIEW

[논문 리뷰] Alternating Recurrent Dialog Model with Large-scale Pre-trained Language Models

Qingyang Wu, Yichi Zhang|arXiv (Cornell University)|2019. 10. 09.

Topic Modeling참고 문헌 18인용 수 32

한 줄 요약

ARDM은 사용자와 시스템 발화에 대해 두 개의 별도 사전학습된 언어 모델을 교대로 구성된, 메모리 순환 프레임워크에서 사용하여 명시적 신념 상태나 대화 행 주석 없이 CamRest676, MultiWOZ, PersuasionForGood 데이터셋 전반에서 강력한 성능을 달성합니다.

ABSTRACT

Existing dialog system models require extensive human annotations and are difficult to generalize to different tasks. The recent success of large pre-trained language models such as BERT and GPT-2 (Devlin et al., 2019; Radford et al., 2019) have suggested the effectiveness of incorporating language priors in down-stream NLP tasks. However, how much pre-trained language models can help dialog response generation is still under exploration. In this paper, we propose a simple, general, and effective framework: Alternating Roles Dialog Model (ARDM). ARDM models each speaker separately and takes advantage of the large pre-trained language model. It requires no supervision from human annotations such as belief states or dialog acts to achieve effective conversations. ARDM outperforms or is on par with state-of-the-art methods on two popular task-oriented dialog datasets: CamRest676 and MultiWOZ. Moreover, we can generalize ARDM to more challenging, non-collaborative tasks such as persuasion. In persuasion tasks, ARDM is capable of generating human-like responses to persuade people to donate to a charity.

연구 동기 및 목표

태스크 지향 대화 시스템에서 주석 부담을 줄이려는 동기 부여.
신념 상태나 대화 행 주석 없이 대화 행동을 학습하기 위해 대규모 사전학습 언어 모델 활용.
사용자 발화와 시스템 발화를 모델링하기 위한 메모리 기반 교대 아키텍처 제안.
설득을 포함한 다수의 대화 작업에서의 효과성 시연.

제안 방법

사용자 발화와 시스템 발화를 위해 두 개의 별도 사전학습 언어 모델을 모델링하고, 이들이 히스토리에 조건화된 다음 토큰을 생성하도록 학습합니다.
역사를 재사용하는 메모리 순환 메커니즘을 도입하여 긴 범위 의존성을 가능하게 합니다(Transformer-XL 스타일).
GPT-2 small로 초기화하고 AdamW로 표준 하이퍼파라미터를 사용하여 작업 데이터셋에서 미세조정하며 제로샷 대화 생성을 위한 트리거 기반 프론프팅을 사용합니다.
동일한 배치 디코딩의 효율성을 위한 동적 대화 필터링 방법으로 넥클리우스 샘플링과 온도 제어 디코딩을 사용합니다.
신념 상태나 대화 행 감독에 의존하지 않으며, 필요시 데이터베이스 질의의 엔티티 추적을 위해 간단한 비신경망 기반 신념 추출기를 선택적으로 사용합니다.

실험 결과

연구 질문

RQ1대화에 주석이 달린 신념 상태나 대화 행 주석 없이도 교대 방식의 화자 특정 언어 모델과 메모리 순환 구조가 대화 응답 생성을 개선할 수 있는가?
RQ2전통적인 태스크 지향 데이터셋(CamRest676, MultiWOZ)에서 ARDM의 성능은 주석이 달린 베이스라인과 비교해 어떤가?
RQ3저자원 설정에서 ARDM은 얼마나 로버스트하며 설득과 같은 비협력적 작업으로 확장될 수 있는가?
RQ4설득 대화 생성에서 인간 평가에 대한 ARDM의 영향은 어떤가?
RQ5장기 대화에서의 디코딩 및 메모리 관리에 대한 실용적 고려사항은 무엇인가?

주요 결과

ARDM은 신념 상태나 대화 행을 감독 신호로 사용하지 않고도 CamRest676 및 MultiWOZ에서 최첨단 방법들보다 낫거나 비슷한 성능을 보입니다.
ARDM은 학습 데이터가 50%로 축소된 상황에서도 강한 성능을 유지하며, 일부 감독 기반 베이스라인을 저자원 조건에서 능가합니다.
MultiWOZ에서 ARDM은 주석 없이도 여러 베이스라인을 능가하고, act-감독 모델(HDSA)과 경쟁력 있습니다.
PersuasionForGood에서 ARDM은 TransferTransfo보다 더 낮은 퍼플렉시티를 달성하고 인간 선호도에서 더 강한 선호를 얻어 기부 의향이 높아집니다.
이 접근법은 비협력적 작업인 자선 설득으로의 일반화 가능성을 보여주며, 교대 화자 모델의 폭넓은 응용 가능성을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.