QUICK REVIEW

[논문 리뷰] TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue

Chien-Sheng Wu, Steven C. H. Hoi|arXiv (Cornell University)|2020. 04. 15.

Topic Modeling인용 수 47

한 줄 요약

TOD-BERT는 사용자/시스템 토큰과 응답 대조 목표를 사용하여 9개 태스크 지향 대화 코퍼스로 사전학습하며, 네 가지 다운스트림 태스크를 개선하고 BERT 및 기타 베이스라인에 비해 소수샷 성능이 강력함.

ABSTRACT

The underlying difference of linguistic patterns between general text and task-oriented dialogue makes existing pre-trained language models less useful in practice. In this work, we unify nine human-human and multi-turn task-oriented dialogue datasets for language modeling. To better model dialogue behavior during pre-training, we incorporate user and system tokens into the masked language modeling. We propose a contrastive objective function to simulate the response selection task. Our pre-trained task-oriented dialogue BERT (TOD-BERT) outperforms strong baselines like BERT on four downstream task-oriented dialogue applications, including intention recognition, dialogue state tracking, dialogue act prediction, and response selection. We also show that TOD-BERT has a stronger few-shot ability that can mitigate the data scarcity problem for task-oriented dialogue.

연구 동기 및 목표

태스크 지향 대화의 robust한 언어 이해를 촉진하기 위해 대화 텍스트와 일반 텍스트 간의 차이를 다룬다.
아홉 개의 태스크 지향 대화 데이터셋을 하나로 통합하여 대화 중심의 BERT 변형을 사전 학습한다.
사용자/시스템 토큰과 응답 대조 목표를 도입하여 대화 구조를 포착한다.
TOD-BERT의 핵심 다운스트림 태스크에서의 개선과 소수샷 능력을 입증한다.

제안 방법

대화 시퀀스에서 사용자 발화와 시스템 발화를 모델링하기 위해 두 개의 특수 토큰 [USR] 와 [SYS]를 BERT에 확장한다.
mask된 언어 모델링(MLM)과 응답 대조 손실(RCL)의 공동 objective로 사전 학습하여 응답 선택을 시뮬레이션한다.
RCL에 대해 이중 인코더 설정을 사용하고, 배치 내의 다른 응답들을 음수로 간주하며 올바른 맥락-응답 유사성을 최대화한다.
9개 데이터셋의 60개 도메인에서 100k 대화(1.4M 발화)를 대상으로 TOD-BERT를 학습하고, BERT-base uncased에서 초기화한다.
동일한 아키텍처와 비교 가능한 하이퍼파라미터로 다운스트림 태스크에서 TOD-BERT를 미세 조정한다.

실험 결과

연구 질문

RQ1태스크 지향 대화 사전학습이 통합 대화 코퍼스에서 일반 사전학습 모델(BERT 등)에 비해 언어 이해를 향상시킬 수 있는가?
RQ2사용자/시스템 토큰과 명시적 응답 선택 objective를 도입하면 대화 태스크에 더 나은 표현을 얻을 수 있는가?
RQ3TOD-BERT는 핵심 태스크 지향 대화 태스크에서 소량 데이터(소수샷) 설정에 어떻게 성능을 보이는가?
RQ4TOD-BERT가 의도 인식, DST, 대화 행위 예측, 응답 선택 등의 다양한 다운스트림 태스크에 유익한가?

주요 결과

TOD-BERT는 의도 인식, 대화 상태 추적(DST), 대화 행위 예측, 응답 선택의 네 가지 다운스트림 태스크에서 BERT 및 GPT-2, DialoGPT와 같은 베이스라인보다 우수한 성능을 보인다.
공동 MLM 및 응답 대조 학습(TOD-BERT-jnt)은 MLM만 사용하는 TOD-BERT(TOD-BERT-mlm)보다 더 강한 표현을 생성한다.
TOD-BERT는 소량샷에서 상당한 성능 향상을 보이며, 1샷 및 10샷 설정에서 의도 인식과 DST에서 큰 정확도 향상을 보여준다.
프로빙에서 TOD-BERT-jnt가 가장 높은 선형 탐색 성능을 기록하며, 더 풍부한 태스크 관련 표현을 시사한다.
TOD-BERT는 교차 데이터셋 및 교차 도메인 성능에서 강력한 이점을 제공하며, 소량샷 시나리오에서 명확한 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.