QUICK REVIEW

[논문 리뷰] SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine Teaching

Baolin Peng, Chunyuan Li|arXiv (Cornell University)|2020. 05. 11.

Topic Modeling참고 문헌 56인용 수 99

한 줄 요약

SOLOIST는 다양한 대화 데이터에서 사전 학습된 단일 Transformer 모델을 사용하고 기계 교육을 통해 미세 조정하여 몇 샷 상황에서 최첨단 성능과 라벨링 비용 감소를 달성하는 대화 봇을 구축합니다.

ABSTRACT

We present a new method SOLOIST that uses transfer learning and machine teaching to build task bots at scale. We parameterize classical modular task-oriented dialog systems using a Transformer-based auto-regressive language model, which subsumes different dialog modules into a single neural model. We pre-train, on heterogeneous dialog corpora, a task-grounded response generation model, which can generate dialog responses grounded in user goals and real-world knowledge for task completion. The pre-trained model can be efficiently adapted to accomplish new tasks with a handful of task-specific dialogs via machine teaching, where training samples are generated by human teachers interacting with the system. Experiments show that (i) SOLOIST creates new state-of-the-art on well-studied task-oriented dialog benchmarks, including CamRest676 and MultiWOZ; (ii) in the few-shot fine-tuning settings, SOLOIST significantly outperforms existing methods, and (iii) the use of machine teaching substantially reduces the labeling cost of fine-tuning. The pre-trained models and codes are available at https://aka.ms/soloist.

연구 동기 및 목표

한 가지 사전 학습된 모델을 사용하여 다수의 태스크 봇 구축 워크플로우를 용이하게 한다.
NLU, DST, POL, NLG를 하나의 트랜스포머 기반 아키텍처로 통합한다.
이질적 대화 코퍼스에서 태스크 기반 사전 학습을 활용한다.
태스크별 데이터가 최소화된 상태에서 머신 티칭으로 새로운 태스크를 미세 조정한다.
몇 샷 설정에서 최첨단 성능과 라벨링 비용 감소를 입증한다.

제안 방법

모듈식 태스크 지향 대화를 트랜스포머 기반 자기회귀 모델로 매개화한다.
이질적 대화 데이터에서 태스크-기반 응답 생성 모델을 사전 학습하여 신념 추적 및 근거 있는 응답을 학습한다.
훈련 목표를 신념 예측과 근거 있는 응답 생성으로 분해하고 대조적 목표를 사용한다.
L_theta를 L_B, L_R, L_C를 결합하는 다중 작업 사전 학습 목표로 구현한다.
새로운 태스크에 대해 적은 수의 대화로 미세 조정하고, 머신 티칭을 적용해 보정 학습 샘플을 생성한다.
디코딩에 대해 핵심 샘플링(nucleus sampling)을 사용하고 소샘플 학습을 강화하기 위해 더 큰 모델 변형을 활용한다.

실험 결과

연구 질문

RQ1SOLOIST는 표준 태스크 지향 대화 벤치마크에서 최첨단 방법과 비교하여 어떻게 성능을 보이나요?
RQ2SOLOIST가 몇 샷 미세 조정 설정에서 새로운 도메인에 효과적으로 일반화할 수 있나요?
RQ3미세 조정 시 머신 티칭이 태스크 봇의 라벨링 비용을 줄이는 데 얼마나 효과적인가요?
RQ4모델 크기가 few-shot 전이 성능에 어떤 영향을 미치나요?
RQ5태스크 기반 사전 학습이 엔드-투-엔드 근거화 및 상태 추적을 가능하게 하는 역할은 무엇인가요?

주요 결과

SOLOIST는 CamRest676 및 MultiWOZ 벤치마크에서 최첨단 결과를 달성합니다.
few-shot 미세 조정 설정에서 SOLOIST는 기존 방법을 크게 능가합니다.
머신 티칭은 미세 조정 시 라벨링 비용을 상당히 감소시킵니다.
더 큰 모델(SOLOIST-L)은 few-shot 상황에서 기본 모델을 지속적으로 능가합니다.
SOLOIST는 의도 분류, 슬롯 채움, 대화 상태 추적과 같은 구성 요소 작업에서도 강한 성능을 유지합니다.
기준선과 비교할 때 SOLOIST는 도메인별 주석이 더 적은데도 엔드-투-엔드 성능이 강합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.